文本中所蕴含信息的层次
1.词条是否在文本中出现——>各种基于词袋的模型
例:大鱼/吃/小雨/和/虾米/。
2.词条的各种内在关联——>各种字典
上位词:猫——>动物/哺乳类/有毛/宠物
下位词:猫——>波斯猫/阿兹猫
同义词:高兴——>开心/喜悦/欢乐/狂喜
反义词:高兴——>难过/悲伤/悲痛/愤怒
3.词序信息——>N-gram语言模型
我喂猪 vs. 猪喂我
4.语法信息——>待探索区域
词性:主谓宾定状补
句内语法分析
句间语法分析
NLP的基本思路
1.传统:基于字典(wordnet)
(1)不能分辨细节差异
(2)需要大量人为劳动
(3)结果主观,依赖于编制者的经验和倾向
(4)无法发现新词
(5)难以精确计算词之间的相似度
2.现代:基于统计模型
(1)特征提取:对语料进行可能的重编码和组合,尽可能的将信息数量化
(2)用模型对潜在信息进行提取建模
注意
本文是观看B站@就是老衲啊转发的视频整理所得
Python文本挖掘笔记:1.3文本挖掘的基本思路
最新推荐文章于 2024-01-07 02:04:23 发布