原博文
2020-03-13 22:55 −
python使用jieba库实现关键词提取的方法主要分为两种:
第一种,使用extract_tags方法:
keywords = jieba.analyse.extract_tags(text, topK=5)
第二种,使用textrank方法:
keywords = jieba.analyse...
0
1264
相关推荐
2019-12-09 19:17 −
标题
Python的__all__变量
描述
1、__all__是一个特殊的变量,可以在包含在模块中,也可以包含在包的__init__.py中。
2、在模块中出现,
import * :__all__限定模块1中的哪些属性(全局变量,函数,类)可被导入到模块2。如果没有__all__,除了模...
0
47
2019-12-15 21:34 −
一、主题式网络爬虫设计方案(15分)
1.主题式网络爬虫名称
NBA球星科比布莱恩特20年职业生涯季后赛赛季48分钟场均数据爬取
2.主题式网络爬虫爬取的内容与数据特征分析
科比20年生涯巅峰季后赛赛季(得分、篮板、助攻、抢断、盖帽)、总得分以及最强数据3.主题式网络爬虫设计方案概述(包括实现思路与技...
0
226
2019-12-23 19:14 −
1、jieba 库安装
方法1:全自动安装(容易失败):easy_install jieba 或者 pip install jieba / pip3 install jieba 方法2:半自动安装(推荐):先下载 https://github.com/fxsj...
2019-12-15 22:27 −
用Python实现一个面向主题的网络爬虫程序,并完成以下内容:(注:每人一题,主题内容自选,所有设计内容与源代码需提交到博客园平台)
一、主题式网络爬虫设计方案(15分)
1.主题式网络爬虫名称
无忧无虑电影网通用爬虫2.主题式网络爬虫爬取的内容与数据特征分析
爬取电视剧列表以及电视剧的详细内容(包括...
2019-12-12 15:19 −
使用pdfminer实现pdf文件的布局分析 python
参考资料:
https://github.com/euske/pdfminer
https://stackoverflow.com/questions/22898145/how-to-extract-text-and-text-coordin...
2019-12-21 17:30 −
####利用简单的python第三方库wordcloud,方便快捷的生成一个中文词云,利于快速浏览文章内容。其中jieba库为一个常用的中文分词库 ```python
import wordcloud
import jieba
from imageio import imread
mask = imr...
0
186
2019-12-19 18:58 −
Python高级应用程序设计任务要求
用Python实现一个面向主题的网络爬虫程序,并完成以下内容:(注:每人一题,主题内容自选,所有设计内容与源代码需提交到博客园平台)
一、主题式网络爬虫设计方案(15分)1.主题式网络爬虫名称
B站番剧页面数据的爬取与分析
2.主题式网络...
0
107
2019-12-19 19:53 −
jieba库概述:
jieba是优秀的中文分词第三方库
中文文本需要通过分词获得单个的词语
jieba是优秀的中文分词第三方库,需要额外安装
jieba库分为精确模式、全模式、搜索引擎模式
原理
1.利用一个中文词库,确定汉子之间的关系概率
2.汉字间概率大的组成词...
2019-12-11 19:51 −
原文 BeautifulSoup是一个解析HTML或XML文件的第三方库。HTML或XML文件可以用DOM模型解释。一般包含三种节点: 元素节点 - 通常指HTML 或 XML的标签 文本节点 - 标签内部的文本内容 属性节点 - 每个标签的属性 BeautifulSoup库可以对HTML或XML...