初窥文本挖掘

Cloni

已于 2023-01-10 10:21:12 修改

阅读量78

点赞数

分类专栏：文本挖掘文章标签：自然语言处理

于 2021-04-03 22:48:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Cloni/article/details/115422011

版权

文本挖掘专栏收录该内容

1 篇文章 0 订阅

订阅专栏

what

基于自然语言，让计算机提取自己想要的信息
例如直接从淘宝客户的评价中，分析客户的情感意愿，可省去现在繁琐的星级评价和特定标签的选择
而分词、词性、文本相似度的判别是整个过程中比较重要的、需要攻克的内容

分词

基于字典、词库

与字典中的词做匹配，简单，效率高
缺点：中文复杂，需要完善的匹配空间

基于词频

把每个相邻词之间的信息做记录，根据词之间的搭配频率来判断语境
缺点：需要大量的语料库，且语料库的质量直接影响分词的质量，且计算量大

基于知识理解

通过语句、语法和语义等，结合上下文对词进行定界，通过机器学习对其分类

文本相似度

常用的判别方法有余弦相似度算法、SimHash等算法（两算法还不是很懂）

情感分析

类似分词，主要应用方法有基于字典和基于统计

基于字典

从字典中判断语义，文本中正面情感词多余负面，则判断为正面，相等则中立，否则负面

基于统计

KNN，朴素贝叶斯，SVM等方法判别所属类别

other

web of science可查询一些英文文献
中国知网查询一些中文文献
对于文献，多查查，多看看，现在还不适应没关系，慢慢来，重点学习获取知识的方法

大牛们：韩家炜、吴恩达
前路满满，道阻且长
潜下心来，现在所做的一切都是为了考研，为了提升

tomrrow

pytorch
tensorflow

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。