import scrapy
from selenium import webdriver
from text5_Douyu.items import Text5DouyuItem
先贴代码
import urllib3
class DouyuimageSpider(scrapy.Spider):
name = 'DouyuImage'
#allowed_domains = ['douyu.com']
start_urls = ['https://yuba.douyu.com/allclassify/anchorlist/list/516']
def parse(self, response):
item=Text5DouyuItem()
content=response.xpath("//div[@clas='classify-classifyGroup-1lMJV']")
for list in content:
nickname=list("./div/p/text()").extract()[0]
image_href=list("./img/@scr").extract()[0]
item[nickname]=nicknme
item[image_href]=image_href
yield item
主要代码就只有这么点,其他的设置均正确,只是一个小小的爬虫,但是爬取的网页有问题!!!!
这个代码主要是爬取斗鱼上的主播信息,但是代码写好以后才发现,扒下来的网页代码和在网页上直接看的代码是不一样的,只能说自己是个菜呗,刚知道这也叫动态网页。
网页链接如下:[链接描述][1]https://yuba.douyu.com/allclassify/anchorlist/list/516
斗鱼主播的信息在网页上按下F12能显示,但是右键“检查网页源代码”就会将主播信息屏蔽了。然后扒下来的代码也是没有主播信息的代码!!!表示没弄懂要怎样去扒取这种动态网页。
请问这种动态网页怎样爬取?是用selenium吗,反正我是不知道了,请各位不吝赐教,万分感谢!!!!!