import requests
from pyquery import PyQuery
import datetime
import time
def get_html(url):
'''
功能:访问 url 的网页,获取网页内容并返回
参数:目标网页的 url
返回:目标网页的 html 内容
'''
headers = {
'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
}
try:
# 发送请求
r = requests.get(url, headers=headers, timeout=5)
r.raise_for_status() # 如果返回的不是200则报错
r.encoding = r.apparent_encoding # 设置编码
time.sleep(0.1)
return r.text
except:
time.sleep(5)
def get_url(html):
"""
:param html: 初始的页面
:return: 版面目录的所有的url
"""
if html:
# 创建爱你query对象
doc = PyQuery(html)
# 找到里面标题的内容
right_title = doc('ul div.right_title-name a')
title_url = []
for title in right_title:
# 得到每个标题的url
title_url.append(title.get('href').replace('./', ''))
# print(title.get('href').replace('./',''))
return title_url
def get_all_url(html, year, month, day):
'''
:param html:
:param year:
:param month:
:param day:
:return: 返回当前日期人民日报页面所有的url
'''
if html:
# 创建对象
doc = PyQuery(html)
# 找到所有的二级标题
new_url = doc('#titleList ul li a')
# new_title = soup.select('#titleList ul li a')
links = []
for url in new_url:
# 将得到的半个url 拼接得到最终文章的url 存入列表
links.append(
f'http://paper.people.com.cn/rmrb/html/{year}-{month}/{day}/' + url.get('href').replace('./', ''))
return links
def main(year, month, day):
'''
:param year:
:param month:
:param day:
'''
# 当前日期的初始url
url = f'http://paper.people.com.cn/rmrb/html/{year}-{month}/{day}/nbs.D110000renmrb_01.htm'
# 得到当前日期的数据
html = get_html(url)
# 得到当前日期的所有的标题的url
link_url = get_url(html)
# 保存数据
with open('人民日报.txt', 'a', encoding='utf-8', )as f:
# 遍历所有的标题url 发送请求得到文章内容
for title in link_url:
# 每个的具体的url值
new_url = f'http://paper.people.com.cn/rmrb/html/{year}-{month}/{day}/' + title
# 发送请求 得到当前文章所在页面的内容
html = get_html(new_url)
# 当前日期的所有url
links = get_all_url(html, year, month, day)
# 每完成一天的数据获取 休息5秒 防止反爬
time.sleep(5)
if links:
# 遍历当前日期的所有的文章的url 得到数据
for url in links:
print(url)
# 发送请求
h = get_html(url)
if h:
# 创建query对象
doc = PyQuery(h)
# 得到每篇文章的标题
title = doc('.text_c h2').text()
# 文章正文
text = doc('div#ozoom')
# 删除文章正文的干扰项
text.find('script').remove()
# 查看数据
print(title)
print(text.text())
# 写入数据
f.write(f'{title}:{ text.text()}')
# 反爬 每得到一篇文章 休息0,1秒
time.sleep(0.1)
if __name__ == '__main__':
# 初始日期 人民日报的最高纪录是去年的年初 因为是20年的代码 所以写 19年1月1号
begin = datetime.date(2019, 1, 1)
end = datetime.date(2020, 5, 27) # 当前日期 也可以用系统当前时间代替 待完善
# 遍历每天的日期
for i in range((end - begin).days + 1):
day = begin + datetime.timedelta(days=i)
# print(day.strftime('%Y'),day.strftime('%m'),day.strftime('%d'))
# 将每天的日期传入 每次执行 得到一天的内容 循环结束 得到人民日报全网数据
main(day.strftime('%Y'), day.strftime('%m'), day.strftime('%d'))
python实战4-人 民 日 报
最新推荐文章于 2024-04-23 00:36:59 发布