一.关于数据:
- 著名的鸢尾花数据:数字化(名称采用0,1,2…代替)。
数据集(data set):数据的整体(可以看作一个矩阵X)。
样本(sample):每行数据表示一个样本(第i个样本X上角标i)。
特征(feature):每一列表达样本的一个特征(第i个特征X下角标i)。
标记(lable):最后一列,用y表示,看作一个向量。 - 数据的表示:
特征空间(feature space):在空间中的点表示一个样本,有几个特征就是几维特征空间。
$分类任务的本质就是特征空间切分。
$特征可以很抽象,例如图像识别:每一个像素点都是特征,28*28=784个特征。如果彩色图像特征就很多。
深度学习可以理解为算法在自动的进行特征工程。而特征工程指的是把原始数据转变为模型的训练数据的过程,它的目的就是获取更好的训练数据特征。
二.机器学习的基本任务
- 分类任务:
(1).二分类任务:判断图片是猫还是狗,判断是否为垃圾邮件等等
(2).多分类任务:手写数字识别,图像识别,银行的风险等级评估等等
注:一些算法只支持二分类任务,但是多分类的任务可以转换为二分类任务,有一些算法天然可以完成多分类任务。
多标签任务:分出一张图片是两个人,人拿物体等情况,而非一个人,一个物品等单一目标情况 - 回归任务:结果是一个连续数字的值,而非类别。
预测房屋价格,市场分析,学生成绩,股票价格
有些算法只能解决回归问题,有的只能解决分类问题,有的都可以结局
有的回归任务可以演变成分类任务,例如无人驾驶
三.机器学习
机器学习就是通过向机器学习算法中输入大量的学习资料(样本),然后产出一个函数f(x),x即代表一个样本,就可以得到一个结果。结果试一个类别,就是一个分类问题,如果是一串数字,就是回归问题。
四.机器学习的算法分类
-
监督学习:给机器学习的训练数据拥有“标记”或“答案”,处理分类和回归任务。
-
非监督学习:给机器学习的训练数据没有“标记”或“答案”。
(1).聚类分类:对没有标记的数据进行分类,如电商对一些消费者分类。
(2).对数据进行降维处理:
¥特征提取:去除与目标无关的特征,如信用卡的评级和人的胖瘦无关。
¥特征压缩:在尽量少的算是信息的情况下,将高维的特征向量压缩为低维的特征向量,这样可以提高运行效率。,但并不影响准确率。如PCA算法,如28*28的图片识别拥有784个特征,但是可以采用特征压缩降至十几个特征
¥方便可视化:人类对于三维以上的数据不可视。
¥异常检测:低维的可以依靠人直接去除,而高维的数据需要用非监督学习去除异常点。 -
半监督学习:一部分数据有标记,另一部分数据没有。各种原因产生的缺失。
¥通常都是先通过无监督学习手段对数据进行处理,然后在使用监督学习手段做模型的训练和测试。 -
增强学习:根据周围的环境采取行动,根据采取行动的结果,学习行动方式。适合于无人驾驶,机器人,阿尔法狗等
五.机器学习的其他分类:
- 批量学习
简单,但是不能适应环境的变化。解决方案:定时的进行批量学习。每天重新进行批量学习,运算量巨大。这在某些环境中不能实现,如股市。 - 在线学习
及时反映新的环境的变化。新的数据带来不好的变化(对手错误的使用产生一些错误的数据)。这可以听过加强数据的监控来解决。适用于数据量巨大,无法批量学习的。 - 参数学习
一旦学到了参数,就不再需要原有的数据集。可以通过参数计算出数据。 - 非参数学习
不对模型进行假设,非参数不等于没参数。