机器学习特征工程之英文中文文本的特征提取

作用就是:将一个英文文档中的所有词当做特征,然后用one-hot将特征位置标出来,用toarry将稀疏变换为离散后,会标注每个文本当中每个次出现的次数(文档特征识别无spare参数!字典有)

2.3.3 文本特征提取
                   单词 作为 特征
                   句子、短语、单词、字母
                   特征:特征词
                   方法1:CountVectorizer
                        1)统计每个样本特征词出现的个数:
                        如图1所示该类会自动将单个字母剔除。只留下字母串当作特征值,统计特征值在数据中出现的次数,并按一句一句的输出一维数组,表明按照顺序的每个特征值所存在的个数。
                        ps:与字典特征提取对比,字典是输入字典型数据以后,比如输入了三个字典(三个样例),每个字典两个特征值(见上一个总结),则最后将三个样本的两个特征值将变成位置变量以及对应值(若特征值等于字符串,则位置对应值1。若为数字,则对应值为数字)。而文本特征提取是将输入文本剔除单个字符,然后对应于每个特征值在每个句子出现几次
                        2)内置函数如图二:与字典特征提取一样。其中建议将特征名(第三个)打出来,好看每次处理的特征值

图一
图一
在这里插入图片描述
图二
代码实现:

from sklearn.feature_extraction.text import CountVectorizer
def count_demo():
    """
    文本特征抽取:CountVecotrizer
    :return:
    """
    data <
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值