小余同学的机器学习笔记1

小余同学的机器学习笔记1

1. 什么叫机器学习

大量数据输入,通过机器学习算法进行学习,最后得出一个模型,然后可以通过这个模型预测出或者得出某个样例结果。

2. 环境
anaconda+pycharm

3. 相关概念
数据整体叫数据集(data set),某一行叫样本(sample),某一列叫特征(feature),具体某一列可以叫特征向量(Xi),最后一列叫标签(label)。
样本除开最后一列可以看成一个矩阵X,最后一列可以看成向量y。
第i个样本写作X(i),第i个样本第j个特征写作X(i)j,第i个样本的标记写作y(i)。

4. 监督学习

4.1分类

  • 分类任务本质是在==特征空间(feature space)==进行切分。
  • 特征可以是具体数,也可以很抽象。比如图像每一个像素点都是特征。
  • 分类任务包括:二分类,多分类,多标签分类。

4.2 回归

  • 结果是一个连续的数字,而非类别。(房屋价格,学生成绩)
  • 回归也可以解决分类问题。可以设置阈值,比如说范围取值在[0-1],>0.5的概率是一类,否则是另一类。

很多问题可以进行转换。


5. 机器学习方法的分类:监督与非监督

监督学习非监督学习半监督学习增强学习
给机器的数据拥有标签或者答案。给机器输入的数据没有标签或者答案,它从无标记的训练数据中推断结论。比如聚类分析。部分数据拥有标签或者答案,另一部分没有。(各种原因产生的标记缺失) .通常用无监督学习手段对数据进行处理,之后再用监督学习进行模型训练和预测。从环境中学习,根据环境的反馈进行优化改进。如无人驾驶,机器人。

非监督学习的意义:

  1. 对没有标记的数据进行分类-聚类分析
  2. 对数据进行降维处理(特征提取,特征压缩:PCA),方便可视化
  3. 异常检测

增强学习

6. 机器学习分类:批量、在线、参数、非参数

批量学习在线学习参数学习非参数学习
一次输入多组数据,建立模型,之后再输入新的数据,模型不会再改变。在线学习其实相当于批量学习的改进,可以从样例输入的输出结果,再次进行学习。通过数据得到一定规律,预测参数,一旦得到了参数,就不需要原来的数据集了。比如得到了一条函数曲线。1.不对模型进行过多假设 2.非参数不等于没有参数
重新批量学习,运算量巨大;不适合变化很快的情况,如股市预测。新的数据带来的变化可能不好,则需要对数据进行监控。

7. 思考与总结:

总的来说算法没有好坏之分,只能说具体某个问题,有些算法更好一点。
脱离具体问题谈没有意义。
在面临具体问题时要多进行尝试,进行比较。
算法为王还是数据为王?…


  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值