pythonscrapy——crawlspider
crawlspider命令——scrapy startproject xxxx,scrapy genspider -t crawl xx xxxxxx
爬取古诗名字:
将没有title的处理
当url的规律适合用正则来爬取的话,用crawlspider会好
详情页的名字在这个:
结果:
不仅爬出来了,也把不用的数据也爬了
因为他们的url也是这样的
cookie模拟登录——qq空间
需要在parse之前就把cookie放上去——用中间键middlewaves实现(下载中间键)
方式一:用middlewaves下载中间键
Request()方法参数都可以作为request的设置
设置代理ip
cookie设置:
settings里面的cookie
用其他方式2:方法重写start_requests
找到网页qq空间中的cookie
拿到cookie之后,因为两个之间隔着; 所以从这个来进行split()
class QkjSpider(scrapy.Spider):
name = 'qkj'
allowed_domains = ['qq.com']
start_urls = ['https://user.qzone.qq.com/807206781']
# 携带cookie 可以用下载中间件
# 携带cookie要重写start_requests()方法
def start_requests(self):
cookies = 'pgv_pvid=6875865022; RK=xNAscq/bfR; ptcz=288c7e8814e1499eb6d8741258d952974d9331dff7ecffd1495d1150efae201c; pgv_info=ssid=s8828885120; _qpsvr_localtk=0.3050993