python英文分词统计词频_数据分析-词频统计-nltk自然语言处理

最新推荐文章于 2023-06-03 14:49:27 发布

weixin_39797758

最新推荐文章于 2023-06-03 14:49:27 发布

阅读量750

点赞数

文章标签： python英文分词统计词频

读取数据

由于我们之前是吧每个职位都存储为单个的csv文件，所以我们先把它们的details职位要求细节信息读取出来。代码如下，具体说明参照之前的文章。#cell-1 定义读取细节的函数def readDetail(fileName):

with open(fileName, 'r') as f:

job = json.load(f)

details = job['details'].lower()

details = details.replace(' ', '').replace('\xa0', '') return details#cell-2 读取文件列表，把细节信息合并到textimport os

text = ''folder = '/Users/zhyuzh/Desktop/Jupyter/spiders/data/lagou_ai/jobs1000/'files = os.listdir(folder)

jobCount = 0for n in range(0, 1000): if not files[n].find('.json') == -1:

details = readDetail(folder + files[n]) if details.find('python') != -1 or details.find('tensorflow') != -1:

jobCount += 1

text += details

print('>>Got jobs:', jobCount)

jieba分词

要统计单词的出现频率，首先我们要进行切词，仍然使用jieba分词。#cell-3使用jieba分词import jieba

words = jieba.lcut(text) # 默认是精确模式cuted=' '.join(words)

print(cuted[:100])

这里print(cuted[:100])只输出前100个字看情况，应该得到类似这样的输出，每个词或标点被用空格分开了：

职位描述：岗位职责： 1 . 展开机器学习 / 深度学习等相关领域研究和开发工作； 2 . 负责从事深度学习框架搭建，包括机器学习、图像处理等的

nltk词频统计

nltk全称是Natural Language Toolkit，自然语言工具包，是专门用来做文本语言分析的工具，和jieba类似，nltk包含了更多功能，但它是针对英文的，对中文来说有些功能还不太好，比如它的中文分词就不如jieba。

nltk官方网站

如果还没安装的话可以用命令conda install nltk或者pip3 install nltk进行安装。

使用下面代码统计单

最低0.47元/天解锁文章

weixin_39797758

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python英文分词统计词频_数据分析-词频统计-nltk自然语言处理

读取数据由于我们之前是吧每个职位都存储为单个的csv文件，所以我们先把它们的details职位要求细节信息读取出来。代码如下，具体说明参照之前的文章。#cell-1定义读取细节的函数defreadDetail(fileName):withopen(fileName,'r')asf:job=json.load(f)details=job['details'].lower()det...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。