Jieba+collections中英文混合语言文章词频统计
前言
前几个星期写了“WordCount-词频统计-英语考级必备-超好用-开源-Python”想着只能统计英文有局限性,就想着把中文的加上。
原文地址:https://blog.csdn.net/CN_ZZH/article/details/132458966
库介绍
Jieba(结巴)
jieba是一个优秀的第三方中文词库,用于中文分词。中文分词指的是将一个汉字序列切分成一个一个单独的词。jieba可以帮助你快速高效地完成中文分词,支持三种分词模式:精确模式、全模式和搜索引擎模式。
collections
collections是Python标准库中的一个模块,提供了一些额外的容器类型,以提供Python标准内建容器dict , list , set , 和tuple的替代选择。这些容器类型包括namedtuple、deque、Counter等。
安装库
可以使用pip安装
pip install jieba
建议使用国内镜像,速度更快。或者你可以挂梯*,懂得都懂(>_O)
推荐几个不错的国内镜像:
- 阿里云:https://mirrors.aliyun.com/pypi/simple/
- 豆瓣:https://pypi.douban.com/simple/
- 清华大学:https://pypi.tuna.tsinghua.edu.cn/simple/
- 中国科学技术大学 http://pypi.mirrors.ustc.edu.cn/simple/
使用方法:
pip install -i [镜像地址] jieba
代码
导入库
首先在文档开头导入要用的库
# !usr/bin/python3
# -*- coding:UTF-8 -*-
import sys
import jieba
from collections import Counter
词频统计函数
把算法写成一个函数,其中参数Objfile
是要统计的文件内容。output
是是否输出,为0
的话就不打印显示了
def wordcount(Objfile,output = 1):
# 打开并读取文件
with