python爬虫之2017政府工作报告词频统计

最新推荐文章于 2024-06-26 00:00:00 发布

云先生

最新推荐文章于 2024-06-26 00:00:00 发布

阅读量5.9k

点赞数 5

分类专栏： python 文章标签： python 编解码爬虫

本文链接：https://blog.csdn.net/yunshiwan/article/details/62235412

版权

python爬虫之2017政府工作报告词频统计

工作报告获取
中文编码
数据清洗
字符分割统计
python编码中文显示问题
图表显示

文章内容

本文从网络抓取了2017年政府工作报告，并统计了各词语的出现频率，用图表分别显示了被提到超过30次和40次的词语。这里只是做了简单的分词，并没有对专业词汇、人名、数字、成语进行统计。所统计的词组全为两字词语。

说到网络爬虫，很多人都觉得是很炫的事，可以把自己关注的东西从海量数据中提取出来，海量数据扯得有点远。我们先来点现实的，本文所述爬虫是完全由我自己写的第一个爬虫程序，经历了很多痛苦。写下来的目的有两个，一是保存起来，为自己爬虫的第一次做个纪念，二是把其中的一些问题与大家交流，以免再次犯错。

废话不多说，先上代码。

@requires_authorization
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
import string
from collections import OrderedDict
import numpy as np 
import matplotlib.pyplot as plt
from matplotlib import mlab

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

云先生

关注关注

5
点赞
踩
28

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

爬取《政府工作报告》词云展示并做词频统计

unique_xl的博客

12-04

4548

爬取《政府工作报告》词云展示并做词频统计 爬取《政府工作报告内容代码： from requests import * from bs4 import BeautifulSoup r=get("http://www.hgnu.edu.cn/2020/0531/c1112a61314/page.htm",timeout=10) r.encoding="utf-8" s=BeautifulSoup(r.text,"html.parser") f=open("报告.txt","w",encoding="utf-8"

Python实例12：政府工作报告词云

LuckSugar

08-06

3243

Python实例12：政府工作报告词云基本思路：读取文件、分词整理；设置并输出词云；观察结果，优化迭代； # GovRptWordCloudv1.py import jieba import wordcloud f = open("E:\\python\\learn\\2020政府工作报告.txt", "r", encoding="utf-8") t = f.read() f.close() ls = jieba.lcut(t) txt = " ".join(ls) w = wordcl

1 条评论您还未登录，请先登录后发表或查看评论

python爬取网页文本_Python爬取网页内容的所有关键词并保存至Excel

weixin_39796839的博客

11-23

701

码农公社 210.net.cn 210是何含义？10月24日是程序员节，1024 =210、210既210之意。Python爬取网页内容的所有关键词并保存至Excel，话不多叙，直接上代码。本文爬取了www_runoob_com某页面展示的全部关键词。import requestsimport openpyxlfrom lxmlimport etreeimport reurl = 'https...

头歌Python作业——8.3 政府工作报告数据提取(project)

最新发布

2201_75537843的博客

06-26

298

【代码】头歌Python作业——8.3 政府工作报告数据提取(project)

利用python jieba库统计政府工作报告词频

weixin_34072637的博客

04-03

1473

1.安装jieba库舍友帮装的，我也不会( ╯□╰ ) 2.上网寻找政府工作报告 3.参照课本三国演义词频统计代码编写 import jieba txt = open("D:\政府工作报告.txt","r",encoding='utf-8').read() words = jieba.lcut(txt) counts = {} for word in words: ...

利用python爬取网页做词云分析——2019年政府工作报告

草地打滚的熊

03-28

5668

直接上代码 #!/usr/bin/python # -*- coding:utf-8 -*- import matplotlib.pyplot as plt from PIL import Image import numpy as np from wordcloud import WordCloud from bs4 import BeautifulSoup import jieba imp...

利用python爬取工作报告

weixin_52260515的博客

11-11

1922

利用python爬取工作报告

【头歌-Python】8.3 政府工作报告数据提取(project)-第5关

qq_45801887的博客

06-11

4323

头歌-Educoder 8.3 政府工作报告数据提取(project) 第5关附件中为2023年政府工作报告，本关要求将报告读取为一个字符串，再利用jieba对中文进行分词，略过停用词后，统计报告中出现的前n个高频词。

基于Python词云分析政府工作报告关键词

09-16

主要介绍了基于Python词云分析政府工作报告关键词,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

19.9.4学习python：政府工作报告词云

Ken_Bot的博客

09-04

807

君不见银河天水划两端，一年一度得相见。岂不闻千里姻缘一线牵，三生石上度华年。佚名 tips：为了让我的博客之路不那么痛苦，我决定以后在每篇博客前面添点诗词，望望远方。这种自我记录性质的博客不会很正经但也会很严谨（源码绝对能跑），还是可供参考进入正题：政府工作报告词云这里选取两篇政府工作报告作为材料，大家可以去链接里复制 2019政府工作报告 2018政府工作报告先贴出源码： #G...

python爬虫豆瓣评论实验报告_用python实现豆瓣短评通用爬虫(登录、爬取、可视化分析)...

weixin_39662611的博客

12-03

3032

原创技术公众号：bigsai前言在本人上的一门课中，老师对每个小组有个任务要求，介绍和完成一个小模块、工具知识的使用。然而我所在的组刚好遇到的是python爬虫的小课题。心想这不是很简单嘛，搞啥呢？想着去搞新的时间精力可能不太够，索性自己就把豆瓣电影的评论(短评)搞一搞吧。之前有写过哪吒那篇类似的，但今天这篇要写的像姨母般详细。本篇主要实现的是对任意一部电影短评(热门)的抓取以及可视化分析。也就...

python 豆瓣评论数据分析_Python爬虫实战案例：豆瓣影评大数据分析报告之网页分析...

weixin_39929377的博客

12-15

1171

个人希望，通过这个完整的爬虫案例(预计总共4篇短文)，能够让爬虫小白学会怎么做爬虫的开发，所以在高手们看来，会有很多浅显的废话，如果觉得啰嗦，可以跳过一些内容~上一篇文章给大家简单介绍了Python做爬虫所需要的环境、豆瓣影评分析的步骤以及豆瓣影评分析报告。本文将介绍制作影评分析的第一步：网页分析。以往的教程通常会忽略这一步，直接告诉怎么做，我希望多分享一些，便于大家尽快熟悉怎么从网页上爬数据。以...

关键词数量统计python_利用python统计《十九大报告》中的关键词和词频

weixin_30972263的博客

01-14

767

利用python统计《十九大报告》中的关键词、报告摘要和词频。引用snowNLP。得到的结果：1、关键词:前五个关键词为 ['发展', '人民', '中国', '党', '建设']2、报告摘要：强调坚定道路自信、理论自信、制度自信、文化自信;明确全面深化改革总目标是完善和发展中国特色社会主义制度、推进国家治理体系和治理能力现代化;明确全面推进依法治国总目标是建设中国特色社会主义法治体系、建设社会...

各省政府工作报告词频统计+数据处理

m0_57011532的博客

09-29

677

背景是这样的，需要统计各省各年的政府工作报告中关于能源环境的词频，以论证该省对能源环境的重视程度。工作报告格式均为txt，txt文档前四位需为年份数字（便于后续统计）；文件路径为’./XX省/2020年工作报告.txt’。输出为excel格式如下： province 2000 2001 … 2021 湖南省关于能源的词频 … … … 河北省关于能源的词频 … … … XX省 … … … … … … … … 这里需要用到以下几个包： # 产生路径，用于遍历 impo

【Python】政府工作报告词云

点滴记忆

04-26

2324

2019政府工作报告.txt https://www.lanzous.com/iby44eh 栗子1： import wordcloud import jieba f=open("2019政府工作报告.txt","r",encoding="utf-8") t=f.read() f.close() ls=jieba.lcut(t) txt=" ".join(ls) w=wo...

2019年政府工作报告词频分析

ouening的博客

03-27

2613

基本思路很简单：（1）使用requests、beautifsoup4提取网页内容；（2）jieba词频统计代码如下： import jieba import jieba.analyse from wordcloud import WordCloud, ImageColorGenerator import matplotlib.pyplot as plt import os import PIL....

Python分析3月政府工作报告

weixin_34396902的博客

05-03

1025

概述有时候我们抓不到一些文章里面的重点，python里jieba库分词很好的为我们提供了一个好的解决方案。下面就讲一个实际使用的一个例子来说明。首先，我们要将网页的内容请求并解析出来，下面是政府工作报告的路径：www.gov.cn/premier/201…利用request库的get(url)方法请求拿到响应的数据，发现报告文字内容大多在段落p标签中。可以引用BeautifulSoup的find_...

python 爬虫评论词频统计

01-06

3. 然后，你可以使用Python的collections库中的Counter类来统计词频。Counter类可以接受一个可迭代对象作为输入，并返回一个字典，其中包含了每个元素出现的次数。 4. 最后，你可以根据词频结果进行排序，以便找出...