文章目录
1.1什么是机器学习
简单来说:把无序的数据转化为有用的信息,主要任务:分类 回归
正确率达百分之六十以上的准确率都被认为是成功的
1.2关键术语
一些专业术语
- 特征 事物的属性
- 训练集 分类好的样本
- 测试集 用来评估训练的模型
1.3主要任务
分类 回归
监督学习算法 |
---|
k-近邻算法 线性回归 |
朴素贝叶斯 局部加权线性回归 |
支持向量机 Ridge回归 |
决策树 Lasso最小回归系数估计 |
无监督学习算法 |
---|
k- 均值 最大期望算法 |
DBSCAN Parzen窗设计 |
1.4如何选择合适的算法
首先考虑目的是什么
如果要预测目标的值可以选择监督学习算法,否则可以选择无监督学习算法
选择监督学习算法后
如果目标变量的值是离散的 如 是/否 ,1/2/3 ,红/黄/蓝 可以选择分类算法
如果目标变量值是连续的 如 0-100.0,-999-999等 则需要选择回归算法
如果不想预测可以选择无监督算法
选择无监督学习算法后
如果需要将数据划分为离散的组 聚类算法
如果需要估计数据和每个分组的相似程度 则需要使用密度估计算法
1.5 开发机器学习的步骤
- 收集数据
爬虫 传感器等 - 准备输入数据
确保数据的格式 - 分析输入数据
人工分析以前得到的数据,如果有信任的数据源,可跳过第三步 - 训练算法
将处理过的数据输入到算法中 - 测试算法
使用预测集测试,评估算法的效果 - 使用算法
将机器学习算法转化为应用程序