写在前面 视频来源于 黑马程序员 六节课入门机器学习。
学习完爬虫,下一步准备学习机器学习的相关知识,之前自己也学习过一点,但感觉层次还达不到入门,沉下心来重新开始,给自己加油,希望能跟大家一起进步!!!
第一课 特征工程及数据的处理
数据集
- Kaggle:数据量大,准确,数据真实
- UCI:收录数据集比较专业,覆盖领域广泛
- scikit-learn:自带数据集,数据量比较小,方便学习
- 常用数据集的结构
- 结构 = 特征值 + 目标值
- Pandas工具 sklearn模块
特征工程
- 特征工程是什么
- 将原始数据转换为更好的代表预测模型的潜在问题的特征的过程,从而提高了对未知数据预测的准确性
- 特征工程的意义
- 直接影响预测结果
- scikit-learn工具
- python语言机器学习工具
- 包含很多机器学习算法的实现
- 文档完善,容易上手
- 稳定版本0.19
数据的特征抽取
- sklearn特征抽取API:sklearn.feature_extraction
- 对字典进行特征抽取
- 把字典中的一些类别数据,分别转化为特征
- 类: sklearn.feature_extraction.DictVectorizer
- 处理完了之后默认返回sparse矩阵格式,为了节约内存,方便读取处理
- 数组形式,有类别的特征,先要转换为字典数据
- one-hot编码:把类别抽取成one-hot编码防止错乱
- 文本特征抽取
- 类sklearn.feature_extaction.text.CountVectorizer