NLP数据预处理神器nltk

最新推荐文章于 2024-08-03 20:56:21 发布

beyourselfwb

最新推荐文章于 2024-08-03 20:56:21 发布

阅读量932

点赞数

分类专栏： NLP 文章标签： NLP 预处理工具

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/baidu_20163013/article/details/94380417

版权

NLP 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

神器nltk

安装很简单：

pip install nltk

第一次使用nltk的话，会报错，还需要下载一些资源包，按照提示下载即可：

import nltk
nltk.download('punkt')

可以简单测试一下：

import nltk
text = 'This is a test. I want to learn nltk.'
sens = nltk.sent_tokenize(text)
print(sens)

上面是将文本text切分成句子。

输出结果是：

[‘This is a test.’, ‘I want to learn nltk.’]

我现在有一个需求，给定一个英文文本，本例子使用《圣经》的英文版，里面每行有若干个句子，我们需要转成每行一个句子，所有字母全部转成小写，单词及符号之间都用空格分隔。

代码如下：

import nltk

lines = []
with open('bible.en.txt') as f:
    # 遍历文件每一行
    for line in f:
        # 将每行以句子为单位分开
        sents = nltk.sent_tokenize(line)
        # 遍历每个句子
        for sent in sents:
            # 先将句子进行tokenize,然后在token之间加空格，最后都转成小写
            tmp = ' '.join(nltk.word_tokenize(sent)).lower().strip() + '\n'
            lines.append(tmp)
# 预处理后的句子写入到新的文件中去
with open('bible.en.txt.lower', 'w') as f:
    f.writelines(lines)

这只是最简单的用法，后续继续补充。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

beyourselfwb CSDN认证博客专家 CSDN认证企业博客

码龄10年

36: 原创

10万+: 周排名

165万+: 总排名

12万+: 访问

: 等级

1267: 积分

57: 粉丝

133: 获赞

52: 评论

401: 收藏

私信

关注

热门文章

分类专栏

Deep Learning 10篇
工具 1篇
论文笔记 1篇
Python 2篇
会议记录 4篇
NLP 9篇

最新评论

Transformer实战
CSDN-Ada助手: 多亏了你这篇博客, 解决了问题: https://ask.csdn.net/questions/8011445, 请多输出高质量博客, 帮助更多的人
torch-sparse gcc编译失败分析
希哈的哈希: conda install pytorch-sparse -c pyg 我也不太懂，但这行代码成功安装了，大家可以试一下
torch-sparse gcc编译失败分析
RessCris: 感谢！参考了 https://data.pyg.org/whl/ 里对应的版本选择，可以了！
RoBERTa：一种鲁棒地优化BERT预训练的方法
HHYY_7: 博主您好，请问如果在自己语料上继续预训练怎么评判训练的效果呢
Fat-tree：A Scalable, Commodity Data Center Network Architecture 解读
Expandinger: 文章里的“均匀转发”和“同一个目的IP的数据包，会从同一条路径转发”是不是有点冲突了呀？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。