1 文本加载
文本处理函数学习:
re.sub():正则表达式替换函数,对于输入的一个字符串,利用正则表达式(的强大的字符串处理功能),去实现(相对复杂的)字符串替换处理,然后返回被替换后的字符串,实现比普通字符串的replace更加强大的替换功能。
import re
s= "大家好,我是一个小白。I 'm so glad to introduce myself, and I’m 18 years old. Today is 2020/01/01. It is a wonderful DAY!"
re.sub(r'[a-z]', '*', s) # 匹配单一小写字母,并替换为*
re.sub(r'[A-Z]', '*', s) # 表示只匹配单一大写字母,并替换为*
re.sub(r'[A-Za-z]', '*', s) # 表示只匹配单一字母,并替换为*
re.sub(r'[0-9]+', '*', s) # 表示匹配多个连续的数字,并替换为*
re.sub(r'[A-Za-z]+', '*', s) # 表示匹配多个连续的字母,并替换为*
re.sub(r'[^a-z]', '*', s) # 表示匹配单个非小写字母
strip():想去掉字符串里面的哪些字符,那么你就把这些字符当参数传入。此函数只会删除头和尾的字符,中间的不会删除。)
如果strip()的参数为空,那么会默认删除字符串头和尾的空白字符(包括\n,\r,\t这些
词元化:
将列表化的句子一个一个拆成word或者str,形成token(词元)

该文介绍了Python中的文本处理技术,包括使用正则表达式函数re.sub进行复杂替换,strip函数去除字符串边缘字符,以及词元化方法。接着,文章详细展示了如何构建语料库,特别是通过定义corpus类来统计词频并过滤低于阈值的词汇。最后,文中提供了具体代码示例,涉及torch库的使用。
最低0.47元/天 解锁文章
1844

被折叠的 条评论
为什么被折叠?



