Python文本挖掘笔记:1.3文本挖掘的基本思路

文本中所蕴含信息的层次
1.词条是否在文本中出现——>各种基于词袋的模型
例:大鱼/吃/小雨/和/虾米/。
2.词条的各种内在关联——>各种字典
上位词:猫——>动物/哺乳类/有毛/宠物
下位词:猫——>波斯猫/阿兹猫
同义词:高兴——>开心/喜悦/欢乐/狂喜
反义词:高兴——>难过/悲伤/悲痛/愤怒
3.词序信息——>N-gram语言模型
我喂猪 vs. 猪喂我
4.语法信息——>待探索区域
词性:主谓宾定状补
句内语法分析
句间语法分析
NLP的基本思路
1.传统:基于字典(wordnet)
(1)不能分辨细节差异
(2)需要大量人为劳动
(3)结果主观,依赖于编制者的经验和倾向
(4)无法发现新词
(5)难以精确计算词之间的相似度
2.现代:基于统计模型
(1)特征提取:对语料进行可能的重编码和组合,尽可能的将信息数量化
(2)用模型对潜在信息进行提取建模
注意
本文是观看B站@就是老衲啊转发的视频整理所得

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值