NLP之文本预处理方法

最新推荐文章于 2024-06-23 17:11:20 发布

Liekkas_Javey

最新推荐文章于 2024-06-23 17:11:20 发布

阅读量915

点赞数

分类专栏：学术文章标签：文本预处理自然语言处理 NLP 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liekkas_javey/article/details/86478152

版权

学术专栏收录该内容

9 篇文章 1 订阅

订阅专栏

1，方法

（1）首先创建两个字典word2idx和idx2word)
（2）保存start_word（"<start>"），end_word（"<end>"），unknown_word（"<unk>"）到字典中。
（3）统计训练语料中所有的单词，并统计其频数，将频数大于某个预定数vocab_threshold的word添加到字典中去。

2，工具

以上文本预处理的方法可能用到的代码有：

import nltk
from collections import Counter


# 分词
senternce = 'Quick brown fox jumps over the lazy dog'
tokens = nltk.tokenize.word_tokenize(sentence.lower())

# 统计频数
counter = Counter()
tokens = ['Quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog']
counter.update(tokens)

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
NLP之文本预处理方法

1，方法（1）首先创建两个字典word2idx和idx2word)（2）保存start_word（"&lt;start&gt;"），end_word（"&lt;end&gt;"），unknown_word（"&lt;unk&gt;"）到字典中。（3）统计训练语料中所有的单词，并统计其频数，将频数大于某个预定数vocab_threshold的word添加到字典中去。2，工具以上文本预处理的..
复制链接

扫一扫

专栏目录

Liekkas_Javey CSDN认证博客专家 CSDN认证企业博客

码龄8年

42: 原创

14万+: 周排名

68万+: 总排名

13万+: 访问

: 等级

1347: 积分

9: 粉丝

48: 获赞

12: 评论

91: 收藏

私信

关注

热门文章

分类专栏

最新评论

通过ArXiv上传论文所需注意要点
蜂蜜黄油味的呀！土豆: 你好，我提交latex以后\begain document出错，说 Removing (La)TeX AUX file called 'LBOVRP.aux' (1624411423 >= 1624411422) 和Removing (La)TeX AUX file called 'LBOVRP.out' (1624411423 >= 1624411422)，我应该怎么改呐
text2img笔记: StackGAN StackGAN++ AttGAN
三横一竖�: 没有，只复现了stackgan的代码
通过ArXiv上传论文所需注意要点
里包: 您好，请问您解决这一问题了吗
通过ArXiv上传论文所需注意要点
Liekkas_Javey: 详细检查下是不是没有正确编译呢？有时候本地编译没问题，但arxiv上编译就会出问题。
通过ArXiv上传论文所需注意要点
Oner_: 您好，我在Arxiv上边提交成功了，但是之后又被退回了；然后我又重新提交了一下，和之前提交的内容一样，可以view，但是预览页面是空白，请问您知道是什么问题吗？多谢解答

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。