python英文分词统计词频_数据分析-词频统计-nltk自然语言处理

读取数据

由于我们之前是吧每个职位都存储为单个的csv文件,所以我们先把它们的details职位要求细节信息读取出来。代码如下,具体说明参照之前的文章。#cell-1 定义读取细节的函数def readDetail(fileName):

with open(fileName, 'r') as f:

job = json.load(f)

details = job['details'].lower()

details = details.replace(' ', '').replace('\xa0', '')        return details#cell-2 读取文件列表,把细节信息合并到textimport os

text = ''folder = '/Users/zhyuzh/Desktop/Jupyter/spiders/data/lagou_ai/jobs1000/'files = os.listdir(folder)

jobCount = 0for n in range(0, 1000):    if not files[n].find('.json') == -1:

details = readDetail(folder + files[n])        if details.find('python') != -1 or details.find('tensorflow') != -1:

jobCount += 1

text += details

print('>>Got jobs:', jobCount)

jieba分词

要统计单词的出现频率,首先我们要进行切词,仍然使用jieba分词。#cell-3使用jieba分词import jieba

words = jieba.lcut(text)  # 默认是精确模式cuted=' '.join(words)

print(cuted[:100])

这里print(cuted[:100])只输出前100个字看情况,应该得到类似这样的输出,每个词或标点被用空格分开了:

职位 描述 : 岗位职责 : 1 . 展开 机器 学习 / 深度 学习 等 相关 领域 研究 和 开发 工作 ; 2 . 负责 从事 深度 学习 框架 搭建 , 包括 机器 学习 、 图像处理 等 的

nltk词频统计

nltk全称是Natural Language Toolkit,自然语言工具包,是专门用来做文本语言分析的工具,和jieba类似,nltk包含了更多功能,但它是针对英文的,对中文来说有些功能还不太好,比如它的中文分词就不如jieba。

nltk官方网站

如果还没安装的话可以用命令conda install nltk或者pip3 install nltk进行安装。

使用下面代码统计单

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值