1.1 课程介绍【斯坦福21秋季:实用机器学习中文版】
这节课老师主要对机器学习等知识做了一系列的介绍,听起来还是有点云里雾里的感觉。了解到了机器学习可能对于人处理的一件很简单的问题反而机器学习处理的难度会很高。李沫老师也提到了预测房价的例子,预测美国房价的最终定价以满足用户可以以最低的价格成交到心怡的房子。我还了解到数据科学家,数据科学家大量的时间都是在与数据打交道,数据对于机器学习来说至关重要,数据科学家常常会把大量的时间花费在清理数据,筛选数据中。我还了解到机器学习对于如今的许多大公司都变得越来越重要,当今的机器学习人才需求量已经呈指数型增长,机器学习现在处在风口上。包括了解到李沫老师不单单是只讲技术,而是结合着教授一系列的知识。
1.2 数据获取【斯坦福21秋季:实用机器学习中文版】
这节课主要是讲了数据的由来,数据可以从原有的数据集获取,但如果要是需要制作一个新的产品,你就需要一个全新的数据,全新的数据就需要自己整理,获取。主要的数据集:学术数据集:数据被学士博士生处理过较为clean,选择性较为少,质量较高;竞赛数据集:较为热门,数据量少,也被处理过较为clean;原始数据集:冗杂,需要大量的数据处理,面积广,灵活。以及数据增强,对数据做一些细微的变化再加到自己的模型中。
1.3 网页数据抓取【斯坦福21秋季:实用机器学习中文版】
爬房价:成本也不高,把html的文本下载下来当作数据,包括各个房子的房价,历史拍卖信息,地方,主人信息等等。图片,找到图片的ID,大小是一个html的20倍,图片存储也很贵。
法律问题:网络爬取不是非法的。但有很多地方需要注意,数据保护比较需要注意,不要爬私有用户信息的爬,爬公开的网络信息的网站,个人信息的爬也不要碰,有版权的信息不要爬,音乐的版权也需要注意。爬网页如果带来盈利性的,需要咨询法律方面的建议。
好处:比较灵活,比较方便,一次可以获取较多的所需信息,成本不是特别高。
1.4 数据标注【斯坦福21秋季:实用机器学习中文版】
半监督学习:没标注数据和有标注数据共同使用
算法:自学习,假设我们有一些已经标注好的数据,一在小数据里训练一下模型,二再对没标好的进行预测,称为伪标号,三将两种数据合并,再进行预测,多次循环。判断标号的确信程度选择留下来的标号数据,再进行循环预测,让样本置信程度更高。
用深一点神经网络标数据(不计成本情况下)
之前是人(专家)来标注数据。找人不太容易
众包:找很多人帮你,不一定是专家,但也会一些,比较好找。
ImageNet数据集标注
AWS数据标注服务 一个标号1.2美分 图片分类便宜一些
将任务变得简单
标注工的成本按小时计算。
人做数据标注随机性大,需要做质量标准规定(质量控制)。
主动学习:会有人进行干预(Active Learning)
Uncertainty sampling :用人来标注最不确信不置信的样本(形似于自学习),最难的样本,好的样本,简单的用已经训练好的模型。
主动学习+自训练。
质量控制:
弱监督学习:半自动的生成标号,比人标的差一点,不过可以供给训练模型,数据编程,总结规律,分类总结。关键词搜索,分类器...
三种数据标注方法:
自训练(自学习)
众包(与上面联合使用)
半监督学习
2.1 探索性数据分析【斯坦福21秋季:实用机器学习中文版】
Pandas 数据分析够用的包,处理,可视化
Csv文件:比较大,文本文件
读取压缩文件:Pd.read_csv(‘.zip’)
No data 残缺数据
数据清洗:类型转换astype
一、面积:大于10小于1000平米的留下来
二、价格:价格差据比较大,出租的价格不小心爬下来了,是一个噪音。
三、类别,独栋别墅,公寓,连体别墅
Box plot:对于不同type的对比
2.2 数据清理【斯坦福21秋季:实用机器学习中文版】
数据错误:没有收集到,放错位置,type不同,数值极端(噪音)
错误的数据对于新的预测,会形成恶性循环,模型质量会变差
数据错误类型:1.不在正常分布区间2.对一些规则有冲突3. 违反了语法限制
功能性依赖:
一阶逻辑表达式
知识图谱基于规则或者模式
2.3 数据变换【斯坦福21秋季:实用机器学习中文版】
数值:
把一个列里面的数值,把他的最小值最大值限定进来,然后做一个线性变换。
- score:
mean(x)均值 std方差
图片:
降低分辨率
机器对低分辨率的照片分析问题不大
Video:
剪切感兴趣的片段,去除无用的片段
压缩算法
文本:
词根化,语法化
压缩的太狠可能会得不偿失
2.4 特征工程【斯坦福21秋季:实用机器学习中文版】
Feature Engineering
One-hot:
文本数据:one-hot
图片和视频:预训练模型,深度的神经网络
特征非常重要,图片视频用深度学习抽取特征