自然语言处理(nlp)的流程图

最新推荐文章于 2024-02-11 23:57:34 发布

guaguastd

最新推荐文章于 2024-02-11 23:57:34 发布

阅读量7.5k

点赞数 1

文章标签： nlp

1. 读取原始数据

html = urlopen(url).read()

2. 数据清洗

raw = nltk.clean_html(html)

3. 数据切片

raw = raw[111:2222222]

4. 数据分词

tokens = nltk.wordpunct_tokenize(raw)

或者

tokens = nltk.word_tokenize(raw)

5. 分词切片

tokens = tokens[20:222222]

6. 文本转换（或者不需要）

text = nltk.Text(tokens)

7. 词汇获取

words = [w.lower() for w in text]

vocab = sorted(set(words))

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理(nlp)的流程图

1. 读取原始数据html = urlopen(url).read()2. 数据清洗raw = nltk.clean_html(html)3. 数据切片raw = raw[111:2222222]4. 数据分词tokens = nltk.wordpunct_tokenize(raw)5. 分词切片tokens = tokens[2
复制链接

扫一扫

guaguastd CSDN认证博客专家 CSDN认证企业博客

码龄11年

133: 原创

3万+: 周排名

144万+: 总排名

96万+: 访问

: 等级

1万+: 积分

212: 粉丝

82: 获赞

35: 评论

254: 收藏

私信

关注

热门文章

分类专栏

最新评论

Python 实现简单的加减算数游戏
华泽小勇: 如何加界面呢
[视觉工程]以图搜图之搜索策略(bf,kdTree,ballTree,annoy,nms,falconn)
韩国麦当劳: 大佬，您好，我想问一下你的falconn是怎么装的？我用pip安装老是报错 [code=plain] Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple Collecting FALCONN Using cached https://pypi.tuna.tsinghua.edu.cn/packages/96/b8/0d2c629d59398a7b3ed8726ce049abf6746bbf09d1ad15878d4fcf8048a6/FALCONN-1.3.1.tar.gz (1.4 MB) Preparing metadata (setup.py) ... done Building wheels for collected packages: FALCONN Building wheel for FALCONN (setup.py) ... error error: subprocess-exited-with-error × python setup.py bdist_wheel did not run successfully. │ exit code: 1 ╰─> [17 lines of output] running bdist_wheel running build running build_py creating build creating build\lib.win-amd64-3.7 creating build\lib.win-amd64-3.7\falconn copying falconn\__init__.py -> build\lib.win-amd64-3.7\falconn running egg_info writing FALCONN.egg-info\PKG-INFO writing dependency_links to FALCONN.egg-info\dependency_links.txt writing top-level names to FALCONN.egg-i [/code]
[GAN实战] DCGAN实现
weixin_53799925: 请问网络深度对gan有什么影响？如果使用一些卷积网络里的module会对gan有比较大的作用么
Python 使用递归打印输出数字（逆序和顺序）
豆汁泡纳豆: 醍醐灌顶
Python 正则表达式将纯文本转化为HTML格式
Tisfy: 正想看这样的文章，就遇到了它

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。