scrapy(一)爬取动态网站

本文介绍了如何利用Scrapy爬取依赖AJAX技术渲染的动态网页。动态网页通常通过AJAX实现异步更新,部分内容需要发送特定HTTP头信息来获取。文章通过实例展示了如何构造URL和设置请求头,以提取网页中的数据。
摘要由CSDN通过智能技术生成

[http://scrapy2016.12.1/dongtaiwangye]

本节内容

动态网页一般是通过AJAX进行技术渲染,AJAX是指一种创建交互式网页应用的网页开发技术,即通过后台与服务器进行少量数据交换,AJAX可以使网页实现异步更新,这就意味着可以在不重新加载整个页面的情况下,对网页的某部分进行更新。在某些时候,网站的某些内容的访问需要回复才能看到全部内容,所以我们需要通过发送给服务器http头信息来获取到内容。本节就来介绍通过发送给服务器http头信息方法,来获取所需要的内容。我们想要提取的网页内容,如下图,链接为[http://www.sse.com.cn/assortment/stock/list/share/]
这里写图片描述

  • 从JavaScript中读取内容

  • 链接打不开的原因打不开的原因就在于,在浏览器上访问的request头信息与程序提交的头信息不同,因此我们需要头信息,如下图
  • 这里写图片描述
  • Cookie="PHPStat_First_Time_10000011=1479129551827; PHPStat_Cookie_Global_User_Id=_ck16111421191118663984787629757; PHPStat_Main_Website_10000011=_ck16111421191118663984787629757%7C10000011%7C%7C%7C; PHPStat_Return_Count_10000011=6; PHPStat_Return_Time_10000011=1480472254948; _trs_uv=eb46_532_ivi3jmuu; VISITED_MENU=%5B%228528%22%5D"
    headers ={
    'User-agent':'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2902.0 Safari/537.36',
    'Cookie': Cookie,
    'Connection': 'keep-alive',
    'Accept': '*/*',
    'Accept-Encoding':'gzip, deflate, sdch'
  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值