机器学习篇(预热)

机器学习的数据:文件csv
使用数据库的缺点:
  • 性能瓶颈,读取速度慢
  • 格式不太符合机器学习要求数据的格式
pandes:读取工具 (基于numpy)
特征工程介绍
  • 数据组成结构:特征值+目标值
  • 列索引:特征
  • 目标值:分类
  • 每一行:样本
特征工程要做的事情:
  1. 特征抽取
    • 将文本转成数值
    • 解释:特征抽取对文本等数据进行特征值化
sklearn特征抽取API
sklearn.feature_extraction
  1. 字典特征抽取
    • 作用:对字典数据进行特征值化
    • 类:sklearn.feature_extraction.DictVectorizer
    • DictVectorizer(sparse=True) 有参数
    • DictVectorizer.fit_transform(X)
      • X:字典或者包含字典的迭代器
      • 返回值:返回sparse矩阵
    • DictVectorizer.inverse_transform(X)
      • X:array数组或者sparse矩阵
      • 返回值:返回sparse矩阵
    • DictVectorizer.get_feature_names()
      • 返回类别名称
    • DictVectorizer.transform(X)
      • 按照原先的标准转换
  2. 文本特征抽取
    • 作用:对文本数据进行特征值化
    • 类:sklearn.feature_extraction.text.CountVectorizer
    • CountVectorizer()
      • 返回词频矩阵
    • CountVectorizer.fit_transform(X)
      • X:文本或者包含文本字符串的可迭代对象
      • 返回值:返回sparse矩阵
    • CountVectorizer.inverse_transform(X)
      • X:array数组或者sparse矩阵
      • 返回值:转换之前数据格式
    • CountVectorizer.get_feature_names()
      • 返回值:单词列表
流程:
  1. 实例化类CountVectorizer
  2. 调用fit_transform方法输入数据并转换
    注意返回格式,利用toarray()进行sparse矩阵转换array数组
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值