2019年政府工作报告词频分析

(文末福利)
基本思路很简单:(1)使用requests、beautifsoup4提取网页内容;(2)jieba词频统计

代码如下:

import jieba
import jieba.analyse
from wordcloud import WordCloud, ImageColorGenerator
import matplotlib.pyplot as plt
import os
import PIL.Image as Image
import numpy as np
from collections import Counter
import requests
from bs4 import BeautifulSoup
import jieba.posseg as psg
import re
url = 'http://www.gov.cn/premier/2019-03/16/content_5374314.htm'

def word_num(txt):
    '''
    输入需要统计词频的文本
    '''
    seg_list = jieba.cut(txt)
    c = Counter()
    for x in seg_list:
        if len(x)>1 and x != '\r\n':
            c[x] += 1
    print('常用词频度统计结果')
    for (k,v) in c.most_common(100):
        print('%s%s %s  %d' % ('  '*(5-len(k)), k, '*'*int(v/3), v))


def extract_html_text(url):
    """
    url: 传入的网页地址
    """
    page_source = requests.get(url).content
    bs_source = BeautifulSoup(page_source,'lxml')
    report_text = bs_source.find_all('p')#查找所有段落内容

    text = ''

    for p in report_text:
        text += p.get_text()
        text += '\n'

    return text

text = extract_html_text(url)
# re.sub('\n','',text)
word_num(text)

运行结果如下

词频度统计结果
      发展 ********************************************  134
      改革 ******************************  92
      加强 ********************  62
      推进 *******************  59
      建设 ******************  56
      企业 *****************  51
      经济 ***************  46
      加快 **************  43
      完善 **************  43
      创新 *************  41
      支持 *************  40
      推动 *************  40
      政府 *************  39
      政策 ************  38
      全面 ************  36
      中国 ************  36
      促进 ***********  35
      深化 ***********  34
      坚持 ***********  33

如果需要Python网络爬虫相关书籍教程的话,可以微信扫描下面二维码关注公众号“向芽塔”,后台回复“python爬虫”获取哦!
在这里插入图片描述

  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值