把输出的数据保存到json中:scrapy crawl toscrape-wang -o quotes_wang.json
name是爬虫名,这个是唯一的。
start_urls是你要访问的网站。
div.col-xl-4是你要抓取数据中的div的class
p是标签
card-text是标签的id或者classs
得到a标签中的href:response.css("a.card-footer-item::attr(href)").extract_first()
得到没有class标签中的文本:response.xpath('//div[@class="card-body bg-dark text-white"]//text()').extract()
访问出现:DEBUG: Crawled (200) <GET http://jandan.net/duan/>
表示网站采用了防爬技术,在settings.py文件中添加:
- USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
dict判断是否有这个键:usl.has_key(h) == False
返回的数据中文格式是Unicode时,在settings.py中添加FEED_EXPORT_ENCODING = 'utf-8',输出的中文就会是中文。