python 爬虫 动态页面_python 动态页面爬取,这个并不是加载更多的动态页面,各位看官往下看...

import scrapy

from selenium import webdriver

from text5_Douyu.items import Text5DouyuItem

先贴代码

import urllib3

class DouyuimageSpider(scrapy.Spider):

name = 'DouyuImage'

#allowed_domains = ['douyu.com']

start_urls = ['https://yuba.douyu.com/allclassify/anchorlist/list/516']

def parse(self, response):

item=Text5DouyuItem()

content=response.xpath("//div[@clas='classify-classifyGroup-1lMJV']")

for list in content:

nickname=list("./div/p/text()").extract()[0]

image_href=list("./img/@scr").extract()[0]

item[nickname]=nicknme

item[image_href]=image_href

yield item

主要代码就只有这么点,其他的设置均正确,只是一个小小的爬虫,但是爬取的网页有问题!!!!

这个代码主要是爬取斗鱼上的主播信息,但是代码写好以后才发现,扒下来的网页代码和在网页上直接看的代码是不一样的,只能说自己是个菜呗,刚知道这也叫动态网页。

网页链接如下:[链接描述][1]https://yuba.douyu.com/allclassify/anchorlist/list/516

斗鱼主播的信息在网页上按下F12能显示,但是右键“检查网页源代码”就会将主播信息屏蔽了。然后扒下来的代码也是没有主播信息的代码!!!表示没弄懂要怎样去扒取这种动态网页。

请问这种动态网页怎样爬取?是用selenium吗,反正我是不知道了,请各位不吝赐教,万分感谢!!!!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值