机器学习概览-CSDN博客

本文链接：https://blog.csdn.net/sinat_21595363/article/details/47022715

一什么是机器学习

机器学习是近年来互联网行业耳熟能详的词，伴随着大数据、云计算、物联网等新兴概念，预示着信息社会的又一轮浪潮的到来。那么什么是机器学习呢？这个听起来很高大上的计算机术语，其实它在我们日常生活中无处不在。以前很喜欢在亚马逊上买书，常常因为点开了下面的根据自己喜好推荐的链接而买了很多；网易云音乐是一款很不错的音乐软件，很大程度上得益于它歌曲推荐算法的准确；还有邮箱能自动识别垃圾邮件并进行过滤；火遍朋友圈的微软的“how old are you”；最近听说支付宝新添了刷脸支付的功能。

现在的信息社会是被数据堆砌起来的大厦，很多被人们忽略了的数据其实存在着巨大的价值。然而除了一些紧急情况，人们很难直接从一堆堆数据里直接获得有用的信息。例如，对于垃圾邮件的检测，检测一个单词是否存在并没有太大的意义，然而当某几个特定的词同时出现时，再辅以其它因素，人们就可以更准确地判定该邮件是否为垃圾邮件。简单地说，机器学习就是把无序的数据转换成有用的信息。

移动计算和传感器产生的海量数据意味着未来将会又越来越多的数据，如何从海量数据中抽取由价值的信息将是一个非常重要的课题。

二机器学习的主要任务

机器学习是指创造出很多用以理解数据的工具的过程。这些工具分为监督型和非监督型的。一般来说，监督型的是指建立一个统计模型来对估计或预测由一个或很多输入对应得输出。非监督型的有数据的输入，但没有监督型那样的输出，然而我们可以学习输出数据之间的联系或结构。

监督型多对应的数据一般都是连续型的（或根据实际情况可视为连续），涉及到的多为回归问题。如分析一个人的工资和他的年龄之间的关系。然而有时候我们会遇到一些非数值型的预测问题，比如预测股市的涨跌，这就属于分类问题，上涨属于一类，跌落属于另一类。对于还有一类数据，我们得到的只有输入而并没有输出，比如在做市场调研时，我们有很多潜在客户的统计数据，我们感兴趣的是根据被观测的特征什么类型的人会彼此相似，然后我们就将他们归为一类，注意这里我们并不用去预测输出值。这一类问题属于聚类问题。

监督学习的主要任务是分类与回归，分类就是要将实例数据划分到合适的分类中；回归其实就是曲线拟合，主要用于预测数值型数据。

而无监督学习中，此时数据没有类别信息，也不会给定目标值。在无监督学习中，将数据集合分成有类似对象组成的多个类的过程称为聚类。将寻找描述数据统计值的过程称为聚类。

三如何选择合适的算法

首先考虑使用机器学习的目的。如果想要预测目标变量的值，可以选择监督学习算法；不想预测值则可选择无监督算法，进一步分析是否要将数据划分为离散的组。

机器学习常用的算法有k-邻近算法，决策树，朴素贝叶斯，Logistic回归，支持向量机等。

开发机器学习应用程序的步骤：

收集数据：收集数据的方法有很多，如制作网络爬虫从网站上抽取数据，传感器所返回的实测数据。
预处理阶段：准备输入数据，得到数据后还要确保数据格式符合要求。不同的算法可能要求数据类型不一样，有的要求字符串型，有的要求整型。此外还要人工分析数据，提炼数据，查看是否存在空值或异常值。这一步是为了确保数据中没有垃圾数据。
训练算法：机器学习算法在这一步才开始。我们将前面的道德数据输入算法，从中抽取知识或信息。
测试算法：为了评估算法的优劣，必须测试算法的工作效果。对于监督学习必须已知用于评估算法的目标变量的值，对于无监督算法也必须用其他检测手段来检测算法的成功率。如果对结果不满意，可返回第三步修改算法，再加以测试。
使用算法：将算法转换为应用程序，执行任务。