机器学习能让我们从数据集得到启发
搜素引擎,邮件过滤系统,推荐系统,数据挖掘(啤酒和尿布)
机器学习在我们生活中随处可见。机器学习是必学的。即使想做其他方向的研究,ML也是基础
1:机器学习专业术语
训练集,测试集,目标变量(如:鸟的类别)。 知识表示(如:可以采用规则集的形式,也可以采用概率的形式)。采用何种方式表示知识也很重要
2:机器学习的主要任务(重要知识点)
:分类,回归 《—-都属于监督学习
:聚类,密度估计《—属于无监督学习
ps:回归,主要用于预测数值型数据,如:数据拟合曲线
ps:分类的经典算法有(K近邻算法,决策树,朴素贝叶斯,支持向量机)
回归的经典算法有(线性回归,局部加权线性回归,Ridge回归,Lasso
最小回归系数估计)
聚类的经典算法有(K-均值,DBSCAN)
3:如何选择合适的算法
针对某个场景下的具体问题,有两步:
A:要完成什么样的任务,结合上述2中罗列的,进行排查,断定
(想预测目标值,就是监督学习;否则,就是无监督学习。然后再细
化。。。当然,也不是一成不变的。这只是传统经验)
B:分析收集到的数据是什么。要分析,对数据越了解,越容易建立符合要求的应用程序。主要了解数据以下特性:如,特征值是离散的,还是连续的,有无缺失值,数据中有无异常值等。
ps:一般来说,没有最好的算法。。。好的算法是反复试错得迭代过程
4:开发机器学习应用程序的步骤
虽然机器学习的算法各有不同,但是使用算法构建应用程序的步骤却基本类似
a:收集数据(如:使用爬虫; 公开数据集)
b:准备输入数据,即整理成某种标准格式(如,整理成 python的list)
c:分析数据(如,查看有没有空值,有没有离群点,异常的值。。。也会涉及到可视化数据;当特征太多时,要涉及到特征压缩。。。)
d:训练算法
e:测试算法
f:使用算法