机器学习&人工智能基础入门篇·笔记（一）特征工程及数据的处理

最新推荐文章于 2024-04-02 05:48:31 发布

朕与众爱卿皆瞠目结舌

最新推荐文章于 2024-04-02 05:48:31 发布

阅读量829

点赞数

分类专栏：机器学习笔记文章标签：笔记机器学习特征工程

本文链接：https://blog.csdn.net/qq_36665342/article/details/81988343

版权

本文是机器学习入门的学习笔记，重点探讨特征工程和数据处理。介绍了Kaggle、UCI和scikit-learn的数据集来源，强调了特征工程在提升预测准确性中的作用，并讲解了如何使用scikit-learn进行特征抽取，包括DictVectorizer进行类别数据转化和CountVectorizer进行文本特征抽取。同时，文章提到了jieba模块在中文文本处理中的应用以及TfidfVectorizer在衡量词重要性方面的优势。

摘要由CSDN通过智能技术生成

写在前面视频来源于黑马程序员六节课入门机器学习。
学习完爬虫，下一步准备学习机器学习的相关知识，之前自己也学习过一点，但感觉层次还达不到入门，沉下心来重新开始，给自己加油，希望能跟大家一起进步！！！

第一课特征工程及数据的处理

数据集

Kaggle：数据量大，准确，数据真实
UCI：收录数据集比较专业，覆盖领域广泛
scikit-learn：自带数据集，数据量比较小，方便学习
- 常用数据集的结构
结构 = 特征值 + 目标值
Pandas工具 sklearn模块

特征工程

特征工程是什么
- 将原始数据转换为更好的代表预测模型的潜在问题的特征的过程，从而提高了对未知数据预测的准确性
特征工程的意义
- 直接影响预测结果
scikit-learn工具
- python语言机器学习工具
- 包含很多机器学习算法的实现
- 文档完善，容易上手
- 稳定版本0.19
数据的特征抽取

sklearn特征抽取API：sklearn.feature_extraction
对字典进行特征抽取
把字典中的一些类别数据，分别转化为特征
类： sklearn.feature_extraction.DictVectorizer
- 处理完了之后默认返回sparse矩阵格式，为了节约内存，方便读取处理
数组形式，有类别的特征，先要转换为字典数据
one-hot编码：把类别抽取成one-hot编码防止错乱
文本特征抽取
类sklearn.feature_extaction.text.CountVectorizer

最低0.47元/天解锁文章

朕与众爱卿皆瞠目结舌

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
机器学习&人工智能基础入门篇·笔记（一）特征工程及数据的处理

写在前面视频来源于黑马程序员六节课入门机器学习。学习完爬虫，下一步准备学习机器学习的相关知识，之前自己也学习过一点，但感觉层次还达不到入门，沉下心来重新开始，给自己加油，希望能跟大家一起进步！！！第一课特征工程及数据的处理数据集Kaggle：数据量大，准确，数据真实UCI：收录数据集比较专业，覆盖领域广泛scikit-learn：自带数据集，数据量比较...
复制链接

扫一扫