人民网新闻抓取Python(内附完整代码)

目录

1.概述

 2.思路

 3.爬虫

3.1 主页面提取新闻链接列表

3.2 提取子页面文本元素

1. 提取标题

2. 提取新闻时间及来源

3. 提取新闻内容

4. 提取责任编辑 

3.3 提取子页面图片链接

3.4 提取子页面视频

4. 构造多线程


1.概述

人民网(People's Daily Online),创办于1997年1月1日,是世界十大报纸之一《人民日报》建设的以新闻为主的大型网上信息交互平台,也是国际互联网上最大的综合性网络媒体之一。本文爬取人民网滚动新闻中经济科技模块,页面首页如图表 1‑1 所示,网址如下:滚动--经济·科技--人民网

 

 该页面是以新闻列表形式排列,网页末尾有页码,点击不同的页码url中的index序号发生变化。每一条新闻都是以超链接形式存在,点击可以跳转到子页面,子页面展示:

 2.思路

本文在遵守Robots友好爬虫协议的前提下,在原始新闻列表页面向Web服务器发送携带cookies的请求,提取出子页面超链接,并存储成URL列表。遍历列表,通过selenium模拟浏览器技术,获得每一个子页面的网页内容,而后使用正则表达式、BeautifulSoup库的css选择器,find,findall,select等查找提取元素方法,获取子页面的新闻标题,新闻时间,报道来源,内容,责任编辑,如果页面存在图片或视频元素,提取其超链接后再次发送请求,下载网页内嵌多媒体

 3.爬虫

3.1 主页面提取新闻链接列表

因为该网站进行页面翻页需要登录才可完成,所以需要利用cookies的状态保持技术。登录过后利用浏览器抓包工具提取cookie,保存成文本文件方便后续调用。向web服务器发送请求,参数放入url,headers浏览器标识和cookies。由于HTML文本的编码方式是gb2312,所以也选择该编码显示返回的文本文件。

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36 Edg/96.0.1054.29'}
domain="http://finance.people.com.cn/"#所有子超链接的根目录
url_0="http://www.people.com.cn/"#网站根目录,其下可以查看Robots协议
    #读入cookies文本文件,改写成requests可以识别的格式
    f_cookie=open(r'C:\Users\mzjj\Desktop\cookies.txt','r',encoding='utf8')
    cookies={}
    for line in f_cookie.read().split(';'):
        name,value=line.strip().split('=',1)
        cookies[name]=value
    f_cookie.close()
  
    r=requests.get(url=url,headers=headers,cookies=cookies)
    r.encoding='gb2312'
    html=r.text

 随后利用BeautifulSoup进行文档页面的解析。通过抓包工具可以发现列表主体存放于<div class=”ej_list_box clear”>标签下,每个<ul>标签下是一个列表块,每个<li>标签下是每一条新闻

如果您下载了本程序,但是该程序存在问题无法运行,那么您可以选择退款或者寻求我们的帮助(如果找我们帮助的话,是需要追加额外费用的)。另外,您不会使用资源的话(这种情况不支持退款),也可以找我们帮助(需要追加额外费用) 爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值