![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
文章平均质量分 94
Tao_Shimmer
执一缕微光
展开
-
python jieba分词及中文词频统计
python中文词频统计上篇pythonjieba是Python中一个重要的第三方中文分词函数库,需要通过pip指令安装,-i 参数指定国内镜像源,速度更快pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jiebajieba分词的三种常见模式如下* 精确模式,试图将句子最精确地切开,适合文本分析;* 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;* 搜索引擎模式,在精确模式的基础上,对长词再次原创 2021-11-25 17:58:22 · 20744 阅读 · 4 评论 -
python词频统计并按词频排序
python词频统计这篇博客用来记录一下自己学习用python做词频统计的过程#一、英文词频统计,所用文本《THE CATCHER IN THE RYE 》(麦田里的守望者)涉及的第三方库及其在程序中的用途如下:import string #去除英文标点符号from nltk.corpus import stopwords #去掉一些停用词这里说下停用词,所谓停用词,多是一些出现频繁但实际意义不大或是对文本分析帮助不大的词汇,如英文里的a,an,that 中文里的“的”、“是”等词,下面是原创 2021-11-07 23:44:02 · 14452 阅读 · 4 评论