“语象观察”是之前看过的钱钢老师做的一项社会学研究,由于之前用于发布的“尽知天下事”公众号被封,导致目前无法再看到老师的相关研究成果(或许这个项目已经停止了),便有了自己尝试来研究。
钱钢老师的文章示例:https://sourl.cn/idh34d
一、确定整体思路
二、实际操作部分
作为技术初学者(和小白差不多),所有的操作都是以目的为导向,并不追求操作的完美型,只求在最少涉及技术的情况下实现要求。
本次所用程序主要由python实现。(python3.8,windows 10 环境下进行的测试)
1、爬取人民日报的数据
此处特别感谢CSDN用户@机灵鹤的博客文章,我在他的代码上进行了一丢丢的更改,直接上代码
import requests
import bs4
import os
import datetime
import time
def fetchUrl(url):
'''
功能:访问 url 的网页,获取网页内容并返回
参数:目标网页的 url
返回:目标网页的 html 内容
'''
headers = {
'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
}
r = requests.get(url,headers=headers)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
def getPageList(year, month, day):
'''
功能:获取当天报纸的各版面的链接列表
参数:年,月,日
'''
url = 'http://paper.people.com.cn/rmrb/html/' + year + '-' + month + '/' + day + '/nbs.D110000renmrb_01.htm'
html = fetchUrl(url)
bsobj = bs4.BeautifulSoup(html,'html.parser')
temp = bsobj.find('div', attrs = {
'id': 'pageList'})
if temp:
pageList = temp.ul.find_all('div', attrs = {
'class': 'right_title-name'})
else:
pageList = bsobj.find('div', attrs = {
'class': 'swiper-container'}).find_all('div', attrs = {
'class': 'swiper-slide'})
linkList = []
for page in pageList:
link = page.a["href"]
url = 'http://paper.people.com.cn/rmrb/html/' + year + '-' + month + '/' + day + '/' + link
linkList.append(url)
return linkList
def getTitleList(year, month, day, pageUrl):
'''
功能:获取报纸某一版面的文章链接列表
参数:年,月,日,该版面的链接
'''</