scrapy、xpath

本文详细介绍了使用Scrapy框架配合XPath进行网络爬虫的实践过程,包括新建Scrapy项目、设置自动翻页、调试、元素提取、处理编码问题、保存图片、保存为JSON、导出到MySQL、使用ItemLoader、设置UA、配置IP代理、验证码识别、设置下载速度以及结合Selenium和Scrapy-Redis进行更复杂的爬虫操作。内容涵盖了从基础到进阶的多个方面。
摘要由CSDN通过智能技术生成

1、新建scrapy项目:
cmd:scrapy startproject Article
pycharm console:
创建爬虫文件:scrapy genspider jobbole blog.jobbole.com
settings.py:
ROBOTSTXT_OBEY = False
使用CrawlSpider实现自动翻页
CrawlSpider根据规则提取指定链接,然后再向这些链接发送请求
CrawlSpider继承自scrapy.Spider
提取链接有两种方式:allow正则表达式 restrict_xpath
创建爬虫文件:scrapy genspider -t crawl read www.dushu.com
编写爬虫文件read
items创建数据结构
read中导入items中的类,赋值,提交
settings打开管道,piplines保存为json文件
查看爬虫模板:
C:\Users\fm>scrapy genspider --list
Available templates:
basic
crawl
csvfeed
xmlfeed
默认使用basic模板
调用crawl模板:
scrapy genspider -t crawl lagou www.lagou.com
添加ua:
scrapy shell -s USER_AGENT="Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.86 Safari/537.36" url
scrapy shell输出中文ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值