“语象观察”-爬取人民日报并统计词频

最新推荐文章于 2021-02-12 08:41:55 发布

caspianke

最新推荐文章于 2021-02-12 08:41:55 发布

阅读量3k

点赞数 5

文章标签： python

本文链接：https://blog.csdn.net/caspianke/article/details/108288720

版权

本文介绍了一种使用Python爬取并统计人民日报文章中关键词出现次数的方法。作者从确定思路到实际操作，详细阐述了如何爬取数据、合并文章、统计词频，并分享了代码资源和后续操作的可能性。

摘要由CSDN通过智能技术生成

文章目录

一、确定整体思路
二、实际操作部分

“语象观察”是之前看过的钱钢老师做的一项社会学研究，由于之前用于发布的“尽知天下事”公众号被封，导致目前无法再看到老师的相关研究成果（或许这个项目已经停止了），便有了自己尝试来研究。
钱钢老师的文章示例：https://sourl.cn/idh34d

一、确定整体思路

在这里插入图片描述

二、实际操作部分

作为技术初学者（和小白差不多），所有的操作都是以目的为导向，并不追求操作的完美型，只求在最少涉及技术的情况下实现要求。

本次所用程序主要由python实现。（python3.8，windows 10 环境下进行的测试）

1、爬取人民日报的数据

此处特别感谢CSDN用户@机灵鹤的博客文章，我在他的代码上进行了一丢丢的更改，直接上代码

import requests
import bs4
import os
import datetime
import time

def fetchUrl(url):
    '''
    功能：访问 url 的网页，获取网页内容并返回
    参数：目标网页的 url
    返回：目标网页的 html 内容
    '''

    headers = {
   
        'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
    }

    r = requests.get(url,headers=headers)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    return r.text

def getPageList(year, month, day):
    '''
    功能：获取当天报纸的各版面的链接列表
    参数：年，月，日
    '''
    url = 'http://paper.people.com.cn/rmrb/html/' + year + '-' + month + '/' + day + '/nbs.D110000renmrb_01.htm'
    html = fetchUrl(url)
    bsobj = bs4.BeautifulSoup(html,'html.parser')
    temp = bsobj.find('div', attrs = {
   'id': 'pageList'})
    if temp:
        pageList = temp.ul.find_all('div', attrs = {
   'class': 'right_title-name'})
    else:
        pageList = bsobj.find('div', attrs = {
   'class': 'swiper-container'}).find_all('div', attrs = {
   'class': 'swiper-slide'})
    linkList = []

    for page in pageList:
        link = page.a["href"]
        url = 'http://paper.people.com.cn/rmrb/html/'  + year + '-' + month + '/' + day + '/' + link
        linkList.append(url)

    return linkList

def getTitleList(year, month, day, pageUrl):
    '''
    功能：获取报纸某一版面的文章链接列表
    参数：年，月，日，该版面的链接
    '''</