文本特征提取_机器学习怎么提取文本特征？

weixin_39703982

于 2020-12-18 09:28:13 发布

阅读量505

点赞数

文章标签：文本特征提取

本文链接：https://blog.csdn.net/weixin_39703982/article/details/111576045

版权

机器学习文本数据特征提取相对数字要复杂很多，本质上就是做单词切分，有的切分超级简单，有的切分超级难。下面演示一个简单的例子，不同的单词当做一个新的特征：

黑客的名字有：ailx10、ailx11、ailx12。年龄分别是27,26,25。由于年龄是数字型，直接作为特征。而名字是文本数据，每一个名字都作为一个特征。

文本特征提取

>>> hacker = [... {'name':'aixl10','age':27},... {'name':'ailx11','age':26},... {'name':'ailx12','age':25},]>>> vec = DictVectorizer()>>> vec.fit_transform(hacker).toarray()array([[27., 0., 0., 1.], [26., 1., 0., 0.], [25., 0., 1., 0.]])>>> vec.get_feature_names()['age', 'name=ailx11', 'name=ailx12', 'name=aixl10']

文本特征提取有两个重要模型：

词集模型：

单词构成的集合，集合中每个元素都只有一个。

词袋模式：

如果一个单词在文档中出现不止一次，并统计其出现的次数。

小测试：

weixin_39703982

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
文本特征提取_机器学习怎么提取文本特征？

机器学习文本数据特征提取相对数字要复杂很多，本质上就是做单词切分，有的切分超级简单，有的切分超级难。下面演示一个简单的例子，不同的单词当做一个新的特征：黑客的名字有：ailx10、ailx11、ailx12。年龄分别是27,26,25。由于年龄是数字型，直接作为特征。而名字是文本数据，每一个名字都作为一个特征。文本特征提取>>> hacker = [... {'name':'ai...
复制链接

扫一扫