自然语言处理（一）：Text Preprocessing

最新推荐文章于 2023-12-15 11:27:40 发布

小羊和小何

最新推荐文章于 2023-12-15 11:27:40 发布

阅读量458

点赞数

分类专栏： NLP自然语言处理文章标签：自然语言处理人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Abner98414/article/details/129337347

版权

目录

1. 为什么第一步要进行预处理？

2. 预处理的步骤

3. Sentence Segmentation 句子分割

3.1 Binary Classifier 二分类器

4. Word Tokenisation

4.1 Word Tokenisation: English

4.2 Word Tokenisation: Chinese

4.3 Subword Tokenisation

4.3.1 Byte-Pair Encoding

5. Word Normalisation

5.1 Inflectional Morphology

5.2 Lemmatisation

5.3 Derivational Morphology

5.5 The Porter Stemmer

6. Stopword Removal

6.2 A Final Word

1. 为什么第一步要进行预处理？

语言是有构成的。作为人类，我们可以将这些文件分解成各个组成部分。为了理解语言，计算机也应该这样做。

2. 预处理的步骤

Remove unwanted formatting (e.g. HTML) 删除不需要的格式（如HTML）
句子分割 Sentence segmentation: break documents into sentences 将文件分割成句子
词语标记化 Word tokenization: break sentences into words 将句子分成词语
词语规范化 Word normalization: transform words into canonical forms 词语化为规范形式
删除止损词 Stopword removal: delete unwanted words 删除不需要的词

3. Sentence Segmentation 句子分割

按标点分割：

最天真的方法是按照句子的标点符号进行分割
但当遇到：“U.S.dollar，...，Yahoo!“这类词的时候如果使用标点符号进行分割就会不恰当。

按照标点后有大写字母的规则进行分割：

可以使用正则表达式实现这个想法
但当遇到：”Mr.Brown“这类词的时候虽然也满足正则表达式，但是分割的不恰当。

按照词典分割：

这似乎是一个更好的办法，但是我们很难罗列出所有的名字和缩写。

总的来说，我们没有合适的规则用于句子分割，应该使用 machine learning。

3.1 Binary Classifier 二分类器

Looks at every "." and decides whether it is the end of a sentence.
- Decision trees, logistic regression
Features
- Look at the words before and after ".”
- Word shapes:
  - Uppercase, lowercase, ALL_CAPS, number 大写、小写、ALL_CAPS、数字
  - Character length 字符长度
Part-of-speech tags
- Determiners tend to start a sentence 定语从句倾向于开始一个句子

4. Word Tokenisation

4.1 Word Tokenisation: English

Naive approach: separate out alphabetic strings (\w+)
Abbreviations (U.S.A.)

最低0.47元/天解锁文章

小羊和小何

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。