(一)NLP基础知识

1、NLTK

一种流行的自然语言处理库、自带语料库、具有分类,分词等很多功能,国外使用者居多,类似中文的jieba处理库

2、文本处理流程

文本处理流程

3、分词

英文用NLTK,中文用jieba等,比较难处理时候,可能得借助正则表达式。

4、复杂的词形

处理数据的时候可能需要变化词形,分2中情况:
1)Inflection变化:不影响词性
walk walking walked
2) derivation 引申:影响词性
nation(n.) national(adj.) nationalize(v.)

5、词形归一化

1)Stemming词干提取:把不影响词性的后缀去掉
walking walk
walked walk
(依旧是动词)
2)Lemmatization词形归一:把各类型的词变形,归一
went归一=go
are归一=be
这里写图片描述
这里写图片描述

3)Lemma出现的问题(借助词性标注完成)

Went v.go的过去式 n.英文名:温特
这里写图片描述

6、去除停用词

中文有:的、地…
英文有:the 、this…

总结:文本预处理流水线

这里写图片描述

  • 7
    点赞
  • 60
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值