1.1人工智能的起源:
- 图灵测试:测试者和被测试者(一个人和一台机器)隔开的情况下,通过一些装置(如键盘)向被测试者随意提问,多次测试(一般为5min之内),如果有超过30%的测试者不能确定被测试者是人还是机器,那么这台机器就通过了测试,并被认为具有人类智能。
- 达特茅斯会议:机器学习大牛的一次两个月的会议,最后的结论是:用机器来模仿人类学习以及其他方面的智能。(1956年是人工智能元年)
1.2人工智能主要分支:
- 通过人工智能的三个关键能力:通讯,感知,行动,人工智能主要有三个技术领域,分别是1)计算机视觉(CV) 2)自然语言处理(NLP)【覆盖文本挖掘、机器翻译、语音识别】3)机器人 (固定机器人/移动机器人)
1.3什么是机器学习:
1.机器学习就是从数据中自动分析获得模型,并利用模型对未知数据进行预测
- 机器学习工作流程:
获取数据-->数据基本处理-->特征工程(对数据进行进一步的处理,方便后面进行机器学习)-->机器学习(模型训练)-->模型评估【1)结果达到要求,上线服务 2)没有达到要求,重新上面的步骤】
详记:
- 数据基本处理:对数据进行缺失值、去除异常值等处理
- 特征工程:
特征提取:将任意数据转换为可用于机器学习的数字特征
特征预处理:通过一些转换函数将特征转换成更加适合算法模型的特征数据过程
特征降维:在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程
【业界广为流传的一句话:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已】
3.机器学习一般的数据集会划分为两个部分:训练数据(用于训练,构建模型,一般是70%~80%)、测试数据(在模型检验时使用,用于评估模型是否有效,一般是20%~30%)
1.4机器学习算法分类
根据数据集组成不同,可以把机器学习算法分为:
监督学习、无监督学习、半监督学习、强化学习
监督学习:
输入数据是由输入特征值和目标值组成
函数输出(目标值)可以是连续值【回归】,也可以是有限个离散值【分类】
无监督学习:
输入数据是由输入特征值组成,没有目标值(输入数据没有被标记,也没有确定的结果,样本数据类别未知)
需要根据样本间的相似性对样本进行类别划分
半监督学习:训练集同时包含有标记样本数据和未标记样本数据
监督学习:从数据库中得到很多没有标签的数据,经过专家的审阅打上标签,然后放到模型里进行训练,训练好以后就有了监督模型
半监督学习:从数据集中得到很多没有标签的数据,取少部分数据让专家打上标签,然后训练得出一个初步的模型。然后还有大量的没有标签的数据,在放入初步训练出的模型里训练,综合得出一个最终的模型。
图 1 监督学习和半监督学习的工作流程和区别
5.强化学习:主要包含五个元素(agent、action、reward、environment、observation),目标就是获得最多的累计奖励
图 2 监督学习和强化学习的区别
6.四种学习方式的区别小结:
1.5 模型评估
- 分类模型评估:
准确率:预测正确的数占样本总数的比例
其他评价指标:精确率、召回率、F1-score、AUC指标等
- 回归模型评估:
均方根误差(RMSE):衡量回归模型误差率,仅能比较误差是相同单位的模型
其他评价指标:相对平方误差(RSE)、平均绝对误差(MAE)、相对绝对误差(RAE)
- 拟合
训练过程中常常出现的问题:训练集上表现很好,测试集上出现问题
欠拟合:模型学习的过于粗糙,连训练集中的样本数据特征关系都没有学出来(学习到的特征过少,区别标准不够精确)
过拟合:所见的机器学习模型或深度学习模型在训练集上表现过于优越,导致在测试数据集中表现不佳(学习到的东西过多,区别标准鲁棒性不好)
1.6 Azure机器学习模型搭建实验(了解机器学习的整个流程)
网址:Microsoft Machine Learning Studio (classic)
数据集:UCI机器学习数据库网址:http://archive.ics.uci.edu/ml/
数据集一般都是.csv格式
1.训练项目实例:根据人口普查预测成员收入
根据前13个属性,预测最后一个收入(这是一个有监督学习)
|
Matplotlib(用于开发2D图表的包)
- 导入 import matplotlib.pyplot as plt
- 图形绘制流程:
- 创建画布 -- plt.figure(figsize = () , dpi = )
- 绘制图像 -- plt.plot(x,y)\
- 显示图像 -- plt.show()
拓展功能:
- 添加自定义行x,y刻度(坐标刻度不能使用字符串直接修改)
Plt.xticks(x,**kwargs) x要显示的刻度值
2. matplotlib可以显示的图像内容
根据这个再依次天空即可绘制图形
模式识别前辈笔记:
https://zhuanlan.zhihu.com/p/63305895
K均值聚类:
模式识别十--k-均值聚类算法的研究与实现_HuFeiHu-CSDN博客
边缘检测:
- 很多图像处理和识别算法都以边缘检测为重要基础
- 边缘:灰度边缘、彩色边缘