机器学习:用算法分析数据,学习规律,然后做出决定和预测。
机器学习主要分为三类:监督学习,无监督学习和强化学习。
监督学习的数据涉及到一组标记数据。
监督学习的两种主要类型是:分类和回归。
分类:在分类中,机器被训练成将一个组划分为特定的类,如垃圾邮件过滤器。
回归:在回归中,机器使用先前标记的数据来预测天气,如天气预报。
无监督学习中,数据是无标签的。
无监督学习分为聚类和降维。
聚类是根据属性和行为进行分组。
与分类不同之处:这些组不是自己提供的。而分类是自己提供的。
聚类的一个例子:将一个组分为不同的子组(例如根据年龄和婚姻),然后有针对性的进行营销方案。
降维通过找到共同点来减少数据量的变量。
例子:大多数大数据可视化使用降维来识别趋势和规则。
强化学习:使用机器的个人历史和经验来做出决定。强化学习不提供正确的答案或输出,只关注性能。
深度学习是机器学习的一个子集,专注于模仿人类大脑的生物学和过程。
机器学习使用数学包括:线性代数、微积分、概率和统计。
一些算法:
(线性)回归算法:是基于连续变量预测特定结果的监督学习算法。
基于实例的算法:基于实例的分析使用提供数据的特定示例来预测结果。
最著名的基于实例的算法是K-最临近算法,也被成为KNN。
KNN用于分类,比较数据点的距离,并将每个点分配给它最接近的组。
还有决策树算法,贝叶斯算法,聚类算法(如k-means算法)。
深度学习和神经网络算法:
人工神经网络是基于生物神经网络的结构。
深度学习采用神经网络模型,并对其进行更新。
“它们是大、且极其复杂的神经网络,使用少量的标记数据和更多的未标记数据。神经网络和深度学习有许多输入,它们经过几个隐藏层后才产生一个或多个输出。这些连接形成一个特定的循环,模仿人脑处理信息和建立逻辑连接的方式。此外,随着算法的运行,隐藏层往往变得更小、更细微”。
The numbers have no way of speaking for themselves. We speak for them. We imbue them with meaning….Before we demand more of our data, we need to demand more of ourselves.—Nate Silver