python爬虫之2017政府工作报告词频统计

python爬虫之2017政府工作报告词频统计

  • 工作报告获取
  • 中文编码
  • 数据清洗
  • 字符分割统计
  • python编码中文显示问题
  • 图表显示

文章内容

本文从网络抓取了2017年政府工作报告,并统计了各词语的出现频率,用图表分别显示了被提到超过30次和40次的词语。这里只是做了简单的分词,并没有对专业词汇、人名、数字、成语进行统计。所统计的词组全为两字词语。

说到网络爬虫,很多人都觉得是很炫的事,可以把自己关注的东西从海量数据中提取出来,海量数据扯得有点远。我们先来点现实的,本文所述爬虫是完全由我自己写的第一个爬虫程序,经历了很多痛苦。写下来的目的有两个,一是保存起来,为自己爬虫的第一次做个纪念,二是把其中的一些问题与大家交流,以免再次犯错。

废话不多说,先上代码。

@requires_authorization
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
import string
from collections import OrderedDict
import numpy as np 
import matplotlib.pyplot as plt
from matplotlib import mlab
Python中进行爬虫评论词频统计的方法如下: 1. 首先,你需要使用爬虫获取到评论数据。你可以使用Python的requests库发送HTTP请求获取网页内容,然后使用正则表达式或者BeautifulSoup库解析网页,提取评论内容。 2. 接下来,你需要对评论内容进行分词。你可以使用Python的jieba库进行中文分词,将评论内容分割成一个个词语。 3. 然后,你可以使用Python的collections库中的Counter类来统计词频。Counter类可以接受一个可迭代对象作为输入,并返回一个字典,其中包含了每个元素出现的次数。 4. 最后,你可以根据词频结果进行排序,以便找出出现频率最高的词语。你可以使用Python的sorted函数对词频字典进行排序,然后按照降序输出结果。 下面是一个示例代码: ```python import requests import jieba from collections import Counter # 发送HTTP请求获取网页内容 url = 'http://example.com/comments' response = requests.get(url) html = response.text # 使用正则表达式或BeautifulSoup库解析网页,提取评论内容 comments = extract_comments(html) # 对评论内容进行分词 words = [] for comment in comments: words += jieba.lcut(comment) # 统计词频 word_counts = Counter(words) # 按照词频进行排序 sorted_word_counts = sorted(word_counts.items(), key=lambda x: x[1], reverse=True) # 输出词频统计结果 for word, count in sorted_word_counts: print(word, count) ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值