机器学习基础

1.1人工智能的起源:

  1. 图灵测试:测试者和被测试者(一个人和一台机器)隔开的情况下,通过一些装置(如键盘)向被测试者随意提问,多次测试(一般为5min之内),如果有超过30%的测试者不能确定被测试者是人还是机器,那么这台机器就通过了测试,并被认为具有人类智能。
  2. 达特茅斯会议:机器学习大牛的一次两个月的会议,最后的结论是:用机器来模仿人类学习以及其他方面的智能。(1956年是人工智能元年)

1.2人工智能主要分支:

  1. 通过人工智能的三个关键能力:通讯,感知,行动,人工智能主要有三个技术领域,分别是1)计算机视觉(CV) 2)自然语言处理(NLP)【覆盖文本挖掘、机器翻译、语音识别】3)机器人 (固定机器人/移动机器人)

1.3什么是机器学习:

1.机器学习就是从数据自动分析获得模型,并利用模型对未知数据进行预测

  1. 机器学习工作流程:

获取数据-->数据基本处理-->特征工程(对数据进行进一步的处理,方便后面进行机器学习)-->机器学习(模型训练)-->模型评估【1)结果达到要求,上线服务 2)没有达到要求,重新上面的步骤】

详记:

  1. 数据基本处理:对数据进行缺失值、去除异常值等处理
  2. 特征工程:

特征提取:将任意数据转换为可用于机器学习的数字特征

特征预处理:通过一些转换函数将特征转换成更加适合算法模型的特征数据过程

特征降维:在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程

【业界广为流传的一句话:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已

3.机器学习一般的数据集会划分为两个部分:训练数据(用于训练,构建模型,一般是70%~80%)、测试数据(在模型检验时使用,用于评估模型是否有效,一般是20%~30%)

1.4机器学习算法分类

根据数据集组成不同,可以把机器学习算法分为:

监督学习、无监督学习、半监督学习、强化学习

监督学习:

输入数据是由输入特征值和目标值组成

函数输出(目标值)可以是连续值【回归】,也可以是有限个离散值【分类】

无监督学习:

输入数据是由输入特征值组成,没有目标值(输入数据没有被标记,也没有确定的结果,样本数据类别未知)

需要根据样本间的相似性对样本进行类别划分

半监督学习:训练集同时包含有标记样本数据和未标记样本数据

监督学习:从数据库中得到很多没有标签的数据,经过专家的审阅打上标签,然后放到模型里进行训练,训练好以后就有了监督模型

半监督学习:从数据集中得到很多没有标签的数据,取少部分数据让专家打上标签,然后训练得出一个初步的模型。然后还有大量的没有标签的数据,在放入初步训练出的模型里训练,综合得出一个最终的模型。

图 1 监督学习和半监督学习的工作流程和区别

5.强化学习:主要包含五个元素(agent、action、reward、environment、observation),目标就是获得最多的累计奖励

图 2 监督学习和强化学习的区别

6.四种学习方式的区别小结:

1.5 模型评估

  1. 分类模型评估:

准确率:预测正确的数占样本总数的比例

其他评价指标:精确率、召回率、F1-score、AUC指标等

  1. 回归模型评估:

均方根误差(RMSE):衡量回归模型误差率,仅能比较误差是相同单位的模型

其他评价指标:相对平方误差(RSE)、平均绝对误差(MAE)、相对绝对误差(RAE)

  1. 拟合

训练过程中常常出现的问题:训练集上表现很好,测试集上出现问题

欠拟合:模型学习的过于粗糙,连训练集中的样本数据特征关系都没有学出来(学习到的特征过少,区别标准不够精确

过拟合:所见的机器学习模型或深度学习模型在训练集上表现过于优越,导致在测试数据集中表现不佳(学习到的东西过多,区别标准鲁棒性不好

1.6  Azure机器学习模型搭建实验(了解机器学习的整个流程)

网址:Microsoft Machine Learning Studio (classic)

数据集:UCI机器学习数据库网址http://archive.ics.uci.edu/ml/

数据集一般都是.csv格式

1.训练项目实例:根据人口普查预测成员收入

根据前13个属性,预测最后一个收入(这是一个有监督学习)

数据集情况

Matplotlib(用于开发2D图表的包)

  1. 导入    import matplotlib.pyplot as plt
  2. 图形绘制流程:
  1. 创建画布 -- plt.figure(figsize = () , dpi = )
  2. 绘制图像 -- plt.plot(x,y)\
  3. 显示图像 -- plt.show()

拓展功能:

  1. 添加自定义行xy刻度(坐标刻度不能使用字符串直接修改)

Plt.xticks(x,**kwargs) x要显示的刻度值

2. matplotlib可以显示的图像内容

根据这个再依次天空即可绘制图形

模式识别前辈笔记:

模式识别课程笔记(一) - 超然haha - 博客园

https://zhuanlan.zhihu.com/p/63305895

K均值聚类:

模式识别十--k-均值聚类算法的研究与实现_HuFeiHu-CSDN博客

边缘检测:

  1. 很多图像处理和识别算法都以边缘检测为重要基础
  2. 边缘:灰度边缘、彩色边缘

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值