what
基于自然语言,让计算机提取自己想要的信息
例如直接从淘宝客户的评价中,分析客户的情感意愿,可省去现在繁琐的星级评价和特定标签的选择
而分词、词性、文本相似度的判别是整个过程中比较重要的、需要攻克的内容
分词
基于字典、词库
与字典中的词做匹配,简单,效率高
缺点:中文复杂,需要完善的匹配空间
基于词频
把每个相邻词之间的信息做记录,根据词之间的搭配频率来判断语境
缺点:需要大量的语料库,且语料库的质量直接影响分词的质量,且计算量大
基于知识理解
通过语句、语法和语义等,结合上下文对词进行定界,通过机器学习对其分类
文本相似度
常用的判别方法有余弦相似度算法、SimHash等算法(两算法还不是很懂)
情感分析
类似分词,主要应用方法有基于字典和基于统计
基于字典
从字典中判断语义,文本中正面情感词多余负面,则判断为正面,相等则中立,否则负面
基于统计
KNN,朴素贝叶斯,SVM等方法判别所属类别
other
web of science可查询一些英文文献
中国知网 查询一些中文文献
对于文献,多查查,多看看,现在还不适应没关系,慢慢来,重点学习获取知识的方法
大牛们:韩家炜、吴恩达
前路满满,道阻且长
潜下心来,现在所做的一切都是为了考研,为了提升
tomrrow
pytorch
tensorflow