NLP语料库构建（corpus）

最新推荐文章于 2024-09-07 08:25:01 发布

原创

最新推荐文章于 2024-09-07 08:25:01 发布 · 4k 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理 #人工智能 #python

该文介绍了Python中的文本处理技术，包括使用正则表达式函数re.sub进行复杂替换，strip函数去除字符串边缘字符，以及词元化方法。接着，文章详细展示了如何构建语料库，特别是通过定义corpus类来统计词频并过滤低于阈值的词汇。最后，文中提供了具体代码示例，涉及torch库的使用。

1 文本加载

文本处理函数学习：

re.sub():正则表达式替换函数，对于输入的一个字符串，利用正则表达式（的强大的字符串处理功能），去实现（相对复杂的）字符串替换处理，然后返回被替换后的字符串，实现比普通字符串的replace更加强大的替换功能。

import re
s= "大家好，我是一个小白。I 'm so glad to introduce myself, and I’m 18 years old.   Today is 2020/01/01. It is a wonderful DAY!"
re.sub(r'[a-z]', '*', s) # 匹配单一小写字母，并替换为*
re.sub(r'[A-Z]', '*', s)  # 表示只匹配单一大写字母，并替换为*
re.sub(r'[A-Za-z]', '*', s) # 表示只匹配单一字母，并替换为*
re.sub(r'[0-9]+', '*', s) # 表示匹配多个连续的数字，并替换为*
re.sub(r'[A-Za-z]+', '*', s) # 表示匹配多个连续的字母,并替换为*
re.sub(r'[^a-z]', '*', s) # 表示匹配单个非小写字母