机器学习第零周-课程介绍
一、环境背景
1.机器学习,可以解决传统算法(编写规则定义难,规则变化快)等问题
2.机器学习应用比较广泛在图像识别,人脸识别,数字识别
二、课程内容
- KNN近邻
- 线性回归
- 多项式回归
- 逻辑回归
- 模型正则化
- PCA降维
- SVM
- 决策树
- 随机森林
- 集成学习
- 模型选择
- 模型调整
三、代码环境
成体系讲解,实际使用算法解决真实场景,介绍如何使用算法
1.课程环境:Python3
2.框架:Anaconda+Scikit-learn
3.其他:numpy、matplotlib
4.IDE:Jupyter Notebook
5.数据集:sklearn内置+MNIST数据集
四、不涵盖区
1.视觉领域
2.自然语言处理
3.推荐系统
4.视觉序列分析
五、回归分类
数据集:鸢尾花的数据
样本:每一行的数据
特征:除了最后一列,每一列的数据特征X矩阵
标签:最后一列的数据表示类别,标记y向量
特征空间:多维度的特征构成的区域
分类本质:在特征空间的切分
特征可以很抽象,例如图像识别的每一个像素点。28*28就是784个特征值
机器学习一般的向量都是指列向量可以转置。
回归:最后一列数据不是属性而是连续的数值,而非类别,例如房屋价格,学生成绩,股票价格,但回归任务可简化为分类任务
六、方法分类
-
监督学习、非监督学习、半监督学习、增强学习
监督学习:给机器的训练数据都拥有标记和答案
非i监督学习:对没有标记的数据进行分类-聚类分析;对数据进行降维处理;特征提取、特征压缩PCA在尽量损失少的特征;降维处理方便可视化;监控异常数据
半监督:一部分数据有标记,一部分没有,通过无监督学习数据处理,用监督学习模型预测和训练
增强学习:根据周围环境,采取行动,根据采取行动学习运动方式,agent -
在线学习、批量学习(离线)、参数学习、非参数
批量学习:简单,可用定时重新学习解决适应多变环境
在线学习:不断将新数据作为训练集及时反应新环境变化,新的数据带来坏的影响
参数学习:模型为y=ax+b,设法求得a,b,一旦得到了参数,就不再需要原有数据
非参数学习:不对模型进行过多的假设,非参数不等于没参
七、哲学思想
数据驱动,收集更多的数据,提高数据质量,提高数据的代表性,研究更多数据特征
- 奥卡姆的剃刀(简单就是好的)
- 没有免费的午餐定理
-可以严格地数学推导,任意两个算法他们的期望性能是相同的
面对具体问题,多算法尝试比较,选择最佳解
八、丘比特笔记
- %run
可直接执行同级目录下py脚本,再次调用无需加载
- %time
单次执行命令的运行时间,若是代码段可用区域化%%time
%timeit 多次运行单条命令的平均情况,统计角度
- %lsmagic
其他魔法命令,import 相对路径模块跟导入第三方库一样操作