初窥文本挖掘

what

基于自然语言,让计算机提取自己想要的信息
例如直接从淘宝客户的评价中,分析客户的情感意愿,可省去现在繁琐的星级评价和特定标签的选择
而分词、词性、文本相似度的判别是整个过程中比较重要的、需要攻克的内容

分词

基于字典、词库

与字典中的词做匹配,简单,效率高
缺点:中文复杂,需要完善的匹配空间

基于词频

把每个相邻词之间的信息做记录,根据词之间的搭配频率来判断语境
缺点:需要大量的语料库,且语料库的质量直接影响分词的质量,且计算量大

基于知识理解

通过语句、语法和语义等,结合上下文对词进行定界,通过机器学习对其分类

文本相似度

常用的判别方法有余弦相似度算法、SimHash等算法(两算法还不是很懂)

情感分析

类似分词,主要应用方法有基于字典和基于统计

基于字典

从字典中判断语义,文本中正面情感词多余负面,则判断为正面,相等则中立,否则负面

基于统计

KNN,朴素贝叶斯,SVM等方法判别所属类别

other

web of science可查询一些英文文献
中国知网 查询一些中文文献
对于文献,多查查,多看看,现在还不适应没关系,慢慢来,重点学习获取知识的方法

大牛们:韩家炜、吴恩达
前路满满,道阻且长
潜下心来,现在所做的一切都是为了考研,为了提升

tomrrow

pytorch
tensorflow

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值