python库函数

jieba

三种分词方式

精确模式:把文本精确的切分开,不存在冗余单词   

全模式:把文本中所有可能的词语都扫描出来,有冗余

搜索引擎模式:在精确模式基础上,对长词再次切分

jieba.lcut(s)  精确模式,返回一个列表类型的分词结果

jieba.lcut(s,cut_all=False)  全模式

jieba.lcut_for_search(s)    搜索引擎模式

jieba.add_word(w)   将一个词语加入到jieba库中

import jieba

sentence = open('mydata.txt', 'rb').read()

jieba.enable_parallel(4)  # 开启并行分词

将目标文本按行分隔后,把各行文本分配到多个 Python 进程并行分词, 然后归并结果,从而获得分词速度的可观提升. 基于 python 自带的 multiprocessing 模块,目前暂不支持 Windows 用法:

jieba.enable_parallel(4) # 开启并行分词模式,参数为并行进程数
jieba.disable_parallel() # 关闭并行分词模式

# words = jieba.cut(sentence=sentence, cut_all=True)  # 全模式分词
words = jieba.cut(sentence=sentence, cut_all=False)  # 精确分词
# words = jieba.cut_for_search(sentence=sentence, HMM=True)  # 搜索引擎分词

print('/'.join(words))

time函数

time.time()   获取当前时间戳,即计算机内部的时间值,浮点数,表示从1970年到当前时刻秒为单位的一个数字

time.ctime()  获取当前时间并以易读方式表示,返回字符串

time.gmtime()  获取当前时间,表示为计算机可处理的时间格式

时间格式化 将时间以合理方式展示出来,按展示模板展示出来

strftime(tpl.ts) tpl是格式化模板字符串,用来定义输出效果  ts是计算机内部时间类型变量

t=time.gmtime()

time.strfttime("%Y-%m-%d %H-%M-%S",t)

 

worldcloud词云  pip install worldcloud

worldcloud.WorldCloud()代表一个文本对应的词云

w=worldcloud.WorldCloud()方法

w.genetate(txt)  向WorldCloud对象w中加载文本txt,     w.generate("python and wordcloud")

w.to_file(filename)  将词云输出为图像文件,.png或jpg格式   w.to_file("outfile.png")

wordcloud库常规方法

步骤1:配置对象参数

步骤2:加载词云文本

步骤3:输出图云文件

import wordcloud

c=wordcloud.WordCloud()

c.generate("wordcloud by Python")

c.to_file("pycloud.png")

1分割:以空格分割单词

2统计:单词出现次数并过滤

3字体:根据统计配置字号

4布局:颜色环境尺寸

配置参数  width、height、min_font_size、max_font_size、font_step、font_path、max_words、stop_words

mask  指定词云形状,默认为长方形,需要引用imread()函数

from scipy.misc import imread

mk=imread("pic.png")

w=wordcloud.WordCloud(mask=mk)

background_color 默认为黑色

import wordcloud

txt="lift is short,you need python"

w=wordcloud.WordCloud(background="white")

w.generate(txt)

w.to_file("pycloud.png")

中文

import jieba

import wordcloud

txt="程序设计语言是计算机能够理解和"

ls=jieba.lcut(txt)

w=wordcloud.WordCloud(background="white")

w.generate(" ".join(ls))

w.to_file("pycloud.png")

 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值