NLP语料库构建(corpus)

该文介绍了Python中的文本处理技术,包括使用正则表达式函数re.sub进行复杂替换,strip函数去除字符串边缘字符,以及词元化方法。接着,文章详细展示了如何构建语料库,特别是通过定义corpus类来统计词频并过滤低于阈值的词汇。最后,文中提供了具体代码示例,涉及torch库的使用。

1 文本加载

文本处理函数学习

re.sub():正则表达式替换函数,对于输入的一个字符串,利用正则表达式(的强大的字符串处理功能),去实现(相对复杂的)字符串替换处理,然后返回被替换后的字符串,实现比普通字符串的replace更加强大的替换功能。

import re
s= "大家好,我是一个小白。I 'm so glad to introduce myself, and I’m 18 years old.   Today is 2020/01/01. It is a wonderful DAY!"
re.sub(r'[a-z]', '*', s) # 匹配单一小写字母,并替换为*
re.sub(r'[A-Z]', '*', s)  # 表示只匹配单一大写字母,并替换为*
re.sub(r'[A-Za-z]', '*', s) # 表示只匹配单一字母,并替换为*
re.sub(r'[0-9]+', '*', s) # 表示匹配多个连续的数字,并替换为*
re.sub(r'[A-Za-z]+', '*', s) # 表示匹配多个连续的字母,并替换为*
re.sub(r'[^a-z]', '*', s) # 表示匹配单个非小写字母

strip():想去掉字符串里面的哪些字符,那么你就把这些字符当参数传入。此函数只会删除头和尾的字符,中间的不会删除。)

如果strip()的参数为空,那么会默认删除字符串头和尾的空白字符(包括\n,\r,\t这些

词元化

将列表化的句子一个一个拆成word或者str,形成token(词元)

2 构建语料库(corpus)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值