动态网页爬虫

动态网页的爬取相比静态网页来说困难一些,主要由于很多网站采用Ajax和动态Html相关技术进行页面交互,导致使用request或urlib是无法获取完整的页面html 内容。下面主要介绍两种抓取动态网页的方法,基本上都是有利有弊。

  • 逆向分析法,使用浏览器开发者工具分析爬取数据的来源,有时需要理解JavaScript
    脚本,需要一定的分析能力和综合能力。
  • Selenium,自动化测试框架,可以获取加载后的页面html,需要专门学习。

一、Ajax和动态Html

Ajax 的全称是Asynchronous JavaScript and XML,中文名称为异步的JavaScript和XML,是JavaScript 异步加载技术、XML以及 Dom,还有表现技术XHTML和CSS等技术的组合。使用Ajax技术不必刷新整个页面,只需对页面的局部进行更新,Ajax 只取回一些必需的数据,它使用SOAP、XML或者支持JSON的Web Service接口,我们在客户端利用JavaScript处理来自服务器的响应,这样客户端和服务器之间的数据交互就减少了,访问速度和用户体验都得到了提升。如注册邮箱时使用的用户名唯一性验证普遍采用的就是Ajax技术。
DHTML是Dynamic HTML的简称,就是动态的HTML,是相对传统的静态HTML而言的一种制作网页的概念。所谓动态HTML(Dynamic HTML,简称DHTML),其实并不是一门新的语言,它只是HTML、CSS和客户端脚本的一种集成,即一个页面中包括 HTML+CSS+JavaScript(或其他客户端脚本)。比如,腾讯新闻详情页首次加载只是加载很少的页面数据,部分数据隐藏在javascript脚本中,使用requests库无法完整获取页面html。

二、动态和静态网页的判定

1、在浏览器设置中开启“禁用JavaScript”选项。以Chrome浏览器最新版为例。点击浏览器的“自定义及控制google chrome”按钮,在左侧“设置”中选择“隐私设置和安全性”;
在右侧栏目中点击“网站设置”,然后选择底部的”JavaScript”;
在这里插入图片描述
鼠标点击“允许(推荐)”后的开关控件;
将选项“允许(推荐)”调整为“己禁止”
完成后关闭设置,打开待爬取的网页,如果页面内容显示不完整或无内容显示。代表网页面是动态网页。读者设置完成后可打开腾讯新闻 https://new.qq.com/ch/ent/,发现网页无内容。
2、使用Requests 库获取目标网页的html 内容并打印输出,将输出内容另存为html.打开本地html,查看页面内容是否完整。以腾讯新闻https://new.qq. com/ch/ent/为例,编写如下代码,将print(r.text)结果另存为d:\news.html。本地打开news.html,查看页面显示效果,页面中缺失的部分就是通过动态网页技术实现的。

import requests
url='https://new.qq.com/ch/ent'
r=requests.get(url)
print(r.text)

import csv
def save(item, path):   # path文件保存路径,item数据列表
    with open(path, "w+", newline='') as f:
        write = csv.writer(f)
        write.writerows(item)
save(r.text,"d:/test2.html")

三、JSON数据解析

Python中使用通常标准库 json来实现从字符串转换为json对象。json模块解析的方式主要有两种,Json.load和 json.loads,其中 json.loads用于将json字符串解析为json对象,而json.load从读取的json文件中将数据转换为json对象。

import json  #导入json模块
jsonstr='{"ccode":"010101","cname":"数据采集与处理","sinfo":[{"scode":"123456","sname":"bob"},{"scode":"123457","sname":"dog"}]}'
obj=json.loads(jsonstr)
print(type(obj))  #obj是字典型
print(obj["ccode"])  #访问属性
print(type(obj["sinfo"]))  #列表
for row in obj["sinfo"]:
    print(row["sname"])

在这里插入图片描述

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值