小余同学的机器学习笔记1

chairon

已于 2022-09-08 10:23:31 修改

阅读量268

点赞数 1

分类专栏：笔记机器学习文章标签：机器学习 python 人工智能

于 2020-06-02 19:49:59 首次发布

本文链接：https://blog.csdn.net/chairon/article/details/106502731

版权

笔记同时被 2 个专栏收录

42 篇文章 1 订阅

订阅专栏

机器学习

6 篇文章 0 订阅

订阅专栏

小余同学的机器学习笔记1

1. 什么叫机器学习

大量数据输入，通过机器学习算法进行学习，最后得出一个模型，然后可以通过这个模型预测出或者得出某个样例结果。

2. 环境
anaconda＋pycharm

3. 相关概念
数据整体叫数据集(data set），某一行叫样本（sample），某一列叫特征（feature），具体某一列可以叫特征向量(Xi)，最后一列叫标签（label）。
样本除开最后一列可以看成一个矩阵X,最后一列可以看成向量y。
第i个样本写作X(i)，第i个样本第j个特征写作X(i)j，第i个样本的标记写作y(i)。

4. 监督学习

4.1分类

分类任务本质是在==特征空间(feature space)==进行切分。
特征可以是具体数，也可以很抽象。比如图像每一个像素点都是特征。
分类任务包括：二分类,多分类,多标签分类。

4.2 回归

结果是一个连续的数字，而非类别。(房屋价格，学生成绩)
回归也可以解决分类问题。可以设置阈值，比如说范围取值在[0-1],>0.5的概率是一类,否则是另一类。

很多问题可以进行转换。

5. 机器学习方法的分类：监督与非监督

监督学习	非监督学习	半监督学习	增强学习
给机器的数据拥有标签或者答案。	给机器输入的数据没有标签或者答案，它从无标记的训练数据中推断结论。比如聚类分析。	部分数据拥有标签或者答案，另一部分没有。(各种原因产生的标记缺失) .通常用无监督学习手段对数据进行处理，之后再用监督学习进行模型训练和预测。	从环境中学习，根据环境的反馈进行优化改进。如无人驾驶，机器人。

非监督学习的意义：

对没有标记的数据进行分类-聚类分析
对数据进行降维处理(特征提取，特征压缩：PCA)，方便可视化
异常检测

增强学习

6. 机器学习分类：批量、在线、参数、非参数

批量学习	在线学习	参数学习	非参数学习
一次输入多组数据，建立模型，之后再输入新的数据，模型不会再改变。	在线学习其实相当于批量学习的改进，可以从样例输入的输出结果，再次进行学习。	通过数据得到一定规律，预测参数，一旦得到了参数，就不需要原来的数据集了。比如得到了一条函数曲线。	1.不对模型进行过多假设 2.非参数不等于没有参数
重新批量学习，运算量巨大;不适合变化很快的情况，如股市预测。	新的数据带来的变化可能不好，则需要对数据进行监控。

7. 思考与总结：

总的来说算法没有好坏之分，只能说具体某个问题，有些算法更好一点。
脱离具体问题谈没有意义。
在面临具体问题时要多进行尝试，进行比较。
算法为王还是数据为王？…