机器学习&人工智能基础入门篇·笔记(一)特征工程及数据的处理

本文是机器学习入门的学习笔记,重点探讨特征工程和数据处理。介绍了Kaggle、UCI和scikit-learn的数据集来源,强调了特征工程在提升预测准确性中的作用,并讲解了如何使用scikit-learn进行特征抽取,包括DictVectorizer进行类别数据转化和CountVectorizer进行文本特征抽取。同时,文章提到了jieba模块在中文文本处理中的应用以及TfidfVectorizer在衡量词重要性方面的优势。
摘要由CSDN通过智能技术生成

写在前面 视频来源于 黑马程序员 六节课入门机器学习。
学习完爬虫,下一步准备学习机器学习的相关知识,之前自己也学习过一点,但感觉层次还达不到入门,沉下心来重新开始,给自己加油,希望能跟大家一起进步!!!

第一课 特征工程及数据的处理

数据集
  • Kaggle:数据量大,准确,数据真实
  • UCI:收录数据集比较专业,覆盖领域广泛
  • scikit-learn:自带数据集,数据量比较小,方便学习
    • 常用数据集的结构
  • 结构 = 特征值 + 目标值
  • Pandas工具 sklearn模块
特征工程


  • 特征工程是什么
    • 将原始数据转换为更好的代表预测模型的潜在问题的特征的过程,从而提高了对未知数据预测的准确性
  • 特征工程的意义
    • 直接影响预测结果
  • scikit-learn工具
    • python语言机器学习工具
    • 包含很多机器学习算法的实现
    • 文档完善,容易上手
    • 稳定版本0.19
  • 数据的特征抽取

  • sklearn特征抽取API:sklearn.feature_extraction
  • 对字典进行特征抽取
  • 把字典中的一些类别数据,分别转化为特征
  • 类: sklearn.feature_extraction.DictVectorizer
    • 处理完了之后默认返回sparse矩阵格式,为了节约内存,方便读取处理
  • 数组形式,有类别的特征,先要转换为字典数据
  • one-hot编码:把类别抽取成one-hot编码防止错乱
  • 文本特征抽取
  • 类sklearn.feature_extaction.text.CountVectorizer
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值