机器学习文本特征提取

海滩上的那乌克丽丽

已于 2022-03-31 21:41:14 修改

阅读量2.6k

点赞数 1

分类专栏：机器学习预处理文章标签： sklearn

于 2022-03-17 17:26:23 首次发布

本文链接：https://blog.csdn.net/h2728677716/article/details/123549687

版权

机器学习同时被 2 个专栏收录

44 篇文章 1 订阅

订阅专栏

预处理

6 篇文章 0 订阅

订阅专栏

1.特征工程直接影响模型预测结果。python用sklearn库做特征工程

两种文本特征抽取方法（Count, tf-idf）

（1）特征抽取API（统计单词次数）

sklearn.feature_extraction

python调用sklearn.feature_extraction 的DictVectorizer实现字典特征抽取

# 字典特征抽取
def dictvec():
    # 特征数据是字符串的话不能输入到算法里面，是要进行特征，转换的转换成OneHot编码。有利于机器学习算法分析。
    # 字典数据抽取,把字典中的一些类别特征，转换乘特征（数字），但是字典里面的数字不会进行转换，因为本来就是数据。
    # 如果是数组形式，有类别的这些特征，我们要先转换成字典，再进行数据抽取。
    # 实例化
    dict = DictVectorizer()

    # 返回的data是一个sparse矩阵格式
    # sparse节约内存，方便数据处理
    data = dict.fit_transform([{"city": "北京", 'temperature': 100}, {"city": "上海", 'temperature': 60}, {"city": "深圳", 'temperature': 30}])

    print(dict.inverse_transform(data))
    print(data)
    # 返回内容列表
    print(dict.get_feature_names())

#文本数据特种抽取

python调用sklearn.feature_extraction.text 的 CountVectorizer实现文本特征抽取

# 文本特征抽取
def countvec():

    test = CountVectorizer()        # 统计次数
    data = test.fit_transform(["life is is short I like python", "life is too long,I dislike python"])
    # 词去重，放在一个列表中
    print(test.get_feature_names())
    # 返回的是sparse格式，toarray手动转成二元组形式，对每篇文章在词的列表里面统计每个词出现的次数（单个字母不统计）
    print(data.toarray())

    # ['dislike', 'is', 'life', 'like', 'long', 'python', 'short', 'too']
    # [[0 1 1 1 0 1 1 0]
    #  [1 1 1 0 1 1 0 1]]

# 中文特征抽取
# 中文因为没有像英文一样进行分词，所以在做特征抽取前要先用jieba进行分词
def cutword():
    # 用jieba分词
    cont1 = jieba.cut("今天很残酷，明天很残酷，后天很美好")
    cont2 = jieba.cut("我们看到的从很远星系来的光是几百万年前发出的")
    cont3 = jieba.cut("如果只用一种方式了解某样事物，你就不会真正了解他")

    # 转换成列表
    content1 = list(cont1)
    content2 = list(cont2)
    content3 = list(cont3)
    # print(content3)
    # ['如果', '只用', '一种', '方式', '了解', '某样', '事物', '，', '你', '就', '不会', '真正', '了解', '他']
    # 把列表转换成字符串
    c1 = ' '.join(content1)
    c2 = ' '.join(content2)
    c3 = ' '.join(content3)
    # print(c1)
    # 今天 很 残酷 ， 明天 很 残酷 ， 后天 很 美好

    return c1, c2, c3

def hanzivec():
    test = CountVectorizer()
    c1, c2 ,c3 = cutword()

    data = test.fit_transform([c1, c2, c3])
    print(test.get_feature_names())
    print(data.toarray())

注：对英文和中文特征抽取过程是不一样的，因为英文单词与单词之间是有空格的，所以不用进行分词。

但是对于中文，词与词之间是没有空格的，所以需要先用jieba进行分词处理，再做特征抽取。

英文特征抽取结果：

['dislike', 'is', 'life', 'like', 'long', 'python', 'short', 'too']
[[0 2 1 1 0 1 1 0]
[1 1 1 0 1 1 0 1]]

中文特征抽取结果：
['一种', '不会', '了解', '事物', '今天', '光是', '几百万年', '发出', '只用', '后天', '如果', '我们', '方式', '明天', '星系', '某样', '残酷', '看到', '真正', '美好']
[[0 0 0 0 1 0 0 0 0 1 0 0 0 1 0 0 2 0 0 1]
[0 0 0 0 0 1 1 1 0 0 0 1 0 0 1 0 0 1 0 0]
[1 1 2 1 0 0 0 0 1 0 1 0 1 0 0 1 0 0 1 0]]

（2）对于以上用统计每个单词数量的方法来做文章的比较，有一个问题就是，每篇文章假如出现了大量的中性词(所以，因为，如果，那么等等)，用统计的方法就不再合适。

TF-IDF

Tf:term frequency(词的频率)

idf:inverse document frequency(逆文档频率)

统计词每篇文章出现的次数 * log(总文档数量/该词出现的文档数量)=重要性

举例：

假如有三篇文章c1, c2, c3

“所以”一词出现在两篇文章中，c1出现了5次，c2出现了2次

那么对于第一篇文档TF-IDF就是5*log(3/2)

那么对于第二篇文档TF-IDF就是2*log(3/2)

对于原本出现次数比较多的此压缩了权重

对于原本出现次数比较少的此增加了权重

可以得出每个词对于这篇文章的重要性

具体意思就是如果一些词在一篇文章出现频率较高，在其他文章出现频率较低，那么说明这些词对于这篇文章重要程度较高。而对于一些所有文章都出现的词那么重要程度较低。

from sklearn.feature_extraction.text import TfidfVectorizer

# TFIDF特征抽取
def tfidfvec():
    test = TfidfVectorizer()
    c1, c2, c3 = cutword()
    data = test.fit_transform([c1, c2, c3])
    print(test.get_feature_names())
    print(data.toarray())

一共三篇文章，结果是每个词在其所在的文章所占的比重。

目标值标签编码

sklearn必须导入数值型。不能是字符串（可以导入一维数组）。

所以我们需要对目标值进行处理

from sklearn.preprocessing import LabelEncoder

#去除最后一列，用LabelEncoder转换成编码（0，1，2）
data.iloc[:, -1] = LabelEncoder().fit_transform(data.iloc[:, -1])

类别型特征做独热编码OneHotEncoder

例如：

有两列特征性别（男，女）、学历（初中，高中，大学）

小明是男生，大学。那么做完独热编码后小明的特征就转换成

1，0，0，0，1

# 取所有行的第一列到倒数第二列
X = data.iloc[:, 1:-1]

#auto,自动识别有几类
enc = OneHotEncoder(categories='auto')

# toarray,将结果转换成一个array数组
result = enc.fit_transform(X).toarray()

# 将OneHot编码后的结果还原
pd.DataFrame(enc.inverse_transform(result))

# 换回OneHot编码后的分类对照结果
# enc.get_feature_names()

Binarizer处理对特征做二值化处理

# 所有对列处理的方法传入的数值都不能是一维，要转成二维数组
X = data_2.ilco[:, 0].values.reshape(-1, 1)

transformer = Binarizer(threshold=30).fit_transform(X)

# 将转换后的0，1数值替换掉原来的列
data_2.iloc[:, 0] = transformer

KBinsDiscretizer对数值做多值化处理

from sklearn.preprocessing import KBinsDiscretizer

# 分成3箱，用独热编码，等宽
est = KBinsDiscretizer(n_bins=3, encode='ordinal', strategy='uniform')

海滩上的那乌克丽丽

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录