Python与机器学习（一）：简介

monkey131499

于 2016-02-23 22:25:07 发布

阅读量736

点赞数

分类专栏： NLP 文章标签： Python 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/monkey131499/article/details/50725635

版权

NLP 专栏收录该内容

20 篇文章 0 订阅

订阅专栏

1.Python语言的优势

1.Python的语法清晰

2.易于操作纯文本

3.使用广泛，存在大量开发文档

2.开发机器学习应用程序步骤

1.收集数据。常用的方法可以是网络爬虫从网站上抽取的数据、设备的实测数据、以及公开数据等。

2.准备输入数据。对收集到的数据进行预处理，例如数据的格式。

3.分析输入数据。主要是人工分析以前得到的数据，查看得到的数据是存在空值，并判断数据是否有可以识别出来的模式，另外还需要检查数据中是否存在明显的异常值。目的是确保数据中没有垃圾数据。

4.训练算法。在监督学习算法中，通过这一步骤从格式化后的数据中抽取出知识或信息，用于后续计算；无监督学习算法则不需要此步骤。

5.测试算法。这一步将使用到训练步骤中获得的知识信息。为评估算法的性能，必须进行算法测试。对于监督学习，必须已知用于评估算法的目标变量值；对于无监督学习，也必须用其他评测手段来检验算法成功率。一旦算法计算的结果达不到要求，就必须返回到之前的步骤，要么对算法进行修改，要么重新收集数据。

6.使用算法。将机器学习算法转换为应用程序，执行实际任务，以检验上述步骤是否可以在实际环境中正常工作。此时如果碰到新的数据问题，同样需要重复执行上述的步骤。

3.机器学习任务和相应算法

解决同一问题可以有多种方法，但不是每一种方法都是最好的，因此需要根据收集的数据和使用机器学习算法的目的来综合选择最合适的算法。例如，根据是否想要预测目标变量的值来选择监督学习算法或无监督学习算法，又如是需要聚类、分类还是密度估计等，另外，数据的属于离散型的还是连续性的，数据是否存在缺失值以及异常值等都是需要考虑的因素。在缩小可选算法范围后，可以对保留的算法进行相应的测试，看各算法处理相同问题的性能，一般来说发现最好算法的关键环节是反复试错的迭代过程。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。