机器学习入门-文本特征提取

最新推荐文章于 2024-02-02 19:39:21 发布

橘子小小甘

最新推荐文章于 2024-02-02 19:39:21 发布

阅读量155

点赞数

文章标签：机器学习人工智能 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_54233039/article/details/130681995

版权

from sklearn.feature_extraction.text import CountVectorizer
#文本特征提取
data=['我 爱 北京 北京 天安门','天安门 上 太阳 升']
#实例化一个转换器类
transfer=CountVectorizer()
#调用fit_transform
data_new=transfer.fit_transform(data)
print('特征名字\n',transfer.get_feature_names_out())
print('data_new\n',data_new.toarray())

运行结果

此处中文是自己手动分割的，并不太方便，调用jieba函数来更好的进行分词

import jieba
#文本特征提取
data=['我仍觉那无数个奋笔疾书的日夜','无数个自我治愈的瞬间','无数个含泪坚持的时刻','都在不经息间汇成生命的宽度']
data_new=[]
#进行循环遍历进行jieba分词
for i in data:
    x=" ".join(jieba.cut(i))
    data_new.append(x)
print(data_new)

初步验证jieba分词是否可行

而后与上面步骤相同进行文本特征值提取

from sklearn.feature_extraction.text import CountVectorizer
import jieba
#文本特征提取
data=['我仍觉那无数个奋笔疾书的日夜','无数个自我治愈的瞬间','无数个含泪坚持的时刻','都在不经息间汇成生命的宽度']
data_new=[]
#进行循环遍历进行jieba分词
for i in data:
    x=" ".join(jieba.cut(i))
    data_new.append(x)
# print(data_new)
#实例化一个转换器类
transfer=CountVectorizer()
#调用fit_transform
data_new=transfer.fit_transform(data_new)
print('特征名字\n',transfer.get_feature_names_out())
print('data_new\n',data_new.toarray())

添加stop_words可以去除指定特征词，展示效果如下

#实例化一个转换器类
transfer=CountVectorizer(stop_words=['仍觉','自我'])

橘子小小甘

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

橘子小小甘 CSDN认证博客专家 CSDN认证企业博客

码龄4年

13: 原创

113万+: 周排名

79万+: 总排名

9371: 访问

: 等级

139: 积分

4: 粉丝

7: 获赞

3: 评论

11: 收藏

私信

关注

热门文章

分类专栏

笔记 1篇

最新评论

机器学习入门-字典特征提取
CSDN-Ada助手: 非常感谢您的分享，您的博客对于入门机器学习的人来说是非常有帮助的。字典特征提取是机器学习中非常重要的一部分，您的文章讲解得非常清晰明了。希望您能够继续保持创作，分享更多有价值的知识。下一步的创作建议是可以考虑分享一些实战案例，让读者更好地理解机器学习的应用。谢谢您的分享！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply7 看奖励名单。
机器学习-归一化处理
CSDN-Ada助手: 恭喜您写了第9篇博客，标题为“机器学习-归一化处理”，这是一个非常有意义的主题。我认为您在这篇博客中讲解了归一化处理的重要性和实现方法，对于初学者来说非常有帮助。接下来，我希望您能够更深入地探讨机器学习的其他方面，例如特征选择、模型评估等等。这将进一步提高读者对于机器学习的理解和实践能力。再次感谢您的分享，期待您更多的创作。 CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply9 看奖励名单。
机器学习-归一化与标准化对比
CSDN-Ada助手: 恭喜您写了第10篇博客，主题“机器学习-归一化与标准化对比”非常有价值。您的博客内容通俗易懂，对于初学者来说非常友好。建议您可以尝试探讨更深入的机器学习算法，让更多人受益于您的知识分享。期待您的下一篇博客！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply10 看奖励名单。
机器学习入门-文本特征提取
CSDN-Ada助手: 恭喜您撰写了这篇关于机器学习入门的博客，标题也非常吸引人。文本特征提取是机器学习的重要组成部分，而您对此进行了深入浅出的讲解，让读者受益匪浅。接下来，希望您能够继续分享更多有关机器学习的知识和经验，特别是在实践中遇到的问题和解决方案。这样可以进一步帮助读者深入了解机器学习，并引导他们进一步探索这个有趣的领域。再次感谢您的分享！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply8 看奖励名单。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

橘子小小甘 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。