python实战4-人 民 日 报

import requests
from pyquery import PyQuery
import datetime
import time


def get_html(url):
    '''
    功能:访问 url 的网页,获取网页内容并返回
    参数:目标网页的 url
    返回:目标网页的 html 内容
    '''
    headers = {
        'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
    }
    try:

        # 发送请求
        r = requests.get(url, headers=headers, timeout=5)
        r.raise_for_status()  # 如果返回的不是200则报错
        r.encoding = r.apparent_encoding  # 设置编码
        time.sleep(0.1)
        return r.text
    except:
        time.sleep(5)


def get_url(html):
    """
    :param html: 初始的页面
    :return: 版面目录的所有的url
    """
    if html:
        # 创建爱你query对象
        doc = PyQuery(html)
        # 找到里面标题的内容
        right_title = doc('ul div.right_title-name a')
        title_url = []
        for title in right_title:
            # 得到每个标题的url
            title_url.append(title.get('href').replace('./', ''))
            # print(title.get('href').replace('./',''))
        return title_url


def get_all_url(html, year, month, day):
    '''
    :param html:
    :param year:
    :param month:
    :param day:
    :return: 返回当前日期人民日报页面所有的url
    '''
    if html:
        # 创建对象
        doc = PyQuery(html)
        # 找到所有的二级标题
        new_url = doc('#titleList ul li a')
        # new_title = soup.select('#titleList ul li a')
        links = []
        for url in new_url:
            # 将得到的半个url  拼接得到最终文章的url 存入列表
            links.append(
                f'http://paper.people.com.cn/rmrb/html/{year}-{month}/{day}/' + url.get('href').replace('./', ''))

        return links


def main(year, month, day):
    '''
    :param year:
    :param month:
    :param day:
    '''
    # 当前日期的初始url
    url = f'http://paper.people.com.cn/rmrb/html/{year}-{month}/{day}/nbs.D110000renmrb_01.htm'
    # 得到当前日期的数据
    html = get_html(url)
    # 得到当前日期的所有的标题的url
    link_url = get_url(html)
    # 保存数据
    with open('人民日报.txt', 'a', encoding='utf-8', )as f:
        #  遍历所有的标题url 发送请求得到文章内容
        for title in link_url:
            # 每个的具体的url值
            new_url = f'http://paper.people.com.cn/rmrb/html/{year}-{month}/{day}/' + title
            # 发送请求 得到当前文章所在页面的内容
            html = get_html(new_url)
            # 当前日期的所有url
            links = get_all_url(html, year, month, day)
            # 每完成一天的数据获取 休息5秒 防止反爬
            time.sleep(5)
            if links:
                # 遍历当前日期的所有的文章的url 得到数据
                for url in links:
                    print(url)
                    # 发送请求
                    h = get_html(url)
                    if h:
                        # 创建query对象
                        doc = PyQuery(h)
                        # 得到每篇文章的标题
                        title = doc('.text_c h2').text()
                        # 文章正文
                        text = doc('div#ozoom')
                        # 删除文章正文的干扰项
                        text.find('script').remove()
                        # 查看数据
                        print(title)
                        print(text.text())
                        # 写入数据
                        f.write(f'{title}:{ text.text()}')
                        # 反爬 每得到一篇文章 休息0,1秒
                        time.sleep(0.1)


if __name__ == '__main__':
    # 初始日期 人民日报的最高纪录是去年的年初 因为是20年的代码 所以写  19年1月1号
    begin = datetime.date(2019, 1, 1)
    end = datetime.date(2020, 5, 27)  # 当前日期   也可以用系统当前时间代替 待完善
    # 遍历每天的日期
    for i in range((end - begin).days + 1):
        day = begin + datetime.timedelta(days=i)
        # print(day.strftime('%Y'),day.strftime('%m'),day.strftime('%d'))
        # 将每天的日期传入 每次执行 得到一天的内容 循环结束 得到人民日报全网数据
        main(day.strftime('%Y'), day.strftime('%m'), day.strftime('%d'))

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值