第三方库的基本学习

jieba库

‘分词问题’;可增加自定义中文单词功能。

分词原理:利用一个中文词库,讲待分的内容与分词词库进行比对,通过呢图结构和动态规划方法找到最大概率的词组。

三种分词模式:

1、精确模式:文本分析,jieba.lcut(s) 不会产生冗余(重复)

2、全模式:所有词语,速度快,不能解决歧义,jieba.lcut(s,cut_all = True)

3、搜素引擎模式:基于精确模式,长词再切分,提高召回,搜素引擎分析,jieba.lcut_search(s)

import jieba
print(jieba.lcut('由于中文文本的单词不是通过空格或者标点符号分割。'))
print(jieba.lcut('由于中文文本的单词不是通过空格或者标点符号分割。',cut_all = True))
print(jieba.lcut_for_search('由于中文文本的单词不是通过空格或者标点符号分割。'))

增加自定义词语

jieba.add_word('潮享')
print(jieba.lcut('乐潮享受',cut_all = True))

wordcloud库--词云

词云:以词语为基本单元,根据其在文本中出现的概率设计不同大小以形成视觉上不同效果,形成‘关键词云层‘或’关键词渲染‘从而使读者易领略文本的主旨。

词云原理:wordcloud默认会以空格或标点为分隔符对目标文本进行分词处理。中文文本-分词处理-空格拼接-wordcloud函数

核心函数:

        类:WordCloud 方法

        方法:generate(text):文本-词云;

        to_file(filename):词云图片-文件

import jieba
import wordcloud
txt = '程序设计语言是计算机能够理解和识别用户操作意图的一种交互体系,按照特定规则组织计算机指令。'
words = jieba.lcut(txt)
print(words)
newtxt = ' '.join(words) #空格拼接
print(newtxt)
wd = wordcloud.WordCloud(font_path='MSYH.TTC',width = 500,height = 300).generate(newtxt)
#这里font_path='MSYH.TTC'如果本地没有字体文件需要自行下载,直接搜索MSYH.TTC即可。目前mac使用可#以直接把下载好的字体文件放在运行文件同目录即可。

PyQt5:一个用于创建GUI应用程序的跨平台的工具包;GUI:图形用户界面。

from PyQt5.QtWidgets import QApplication,QWidget,QPushButton
from PyQt5.QtGui import QIcon
import sys
app = QApplication(sys.argv)
w = QWidget()
w.resize(550,250)#窗口大小
w.move(900,300) #控件位置
w.setWindowTitle('潮享教育') #窗口的标题
w.setWindowIcon(QIcon('python.png'))
w.show()
sys.exit(app.exec())

  PyInstaller库

在操作系统下将Python源文件打包,变成可直接运行的可执行文件。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值