scrapy、xpath

fmingzh

已于 2022-04-15 20:18:09 修改

阅读量853

点赞数

分类专栏： python 文章标签： python

于 2018-07-08 18:40:32 首次发布

本文链接：https://blog.csdn.net/misterfm/article/details/80961458

版权

本文详细介绍了使用Scrapy框架配合XPath进行网络爬虫的实践过程，包括新建Scrapy项目、设置自动翻页、调试、元素提取、处理编码问题、保存图片、保存为JSON、导出到MySQL、使用ItemLoader、设置UA、配置IP代理、验证码识别、设置下载速度以及结合Selenium和Scrapy-Redis进行更复杂的爬虫操作。内容涵盖了从基础到进阶的多个方面。

摘要由CSDN通过智能技术生成

1、新建scrapy项目：
cmd：scrapy startproject Article
pycharm console:
创建爬虫文件：scrapy genspider jobbole blog.jobbole.com
settings.py:
ROBOTSTXT_OBEY = False
使用CrawlSpider实现自动翻页
CrawlSpider根据规则提取指定链接，然后再向这些链接发送请求
CrawlSpider继承自scrapy.Spider
提取链接有两种方式：allow正则表达式 restrict_xpath
创建爬虫文件：scrapy genspider -t crawl read www.dushu.com
编写爬虫文件read
items创建数据结构
read中导入items中的类，赋值，提交
settings打开管道，piplines保存为json文件
查看爬虫模板：
C:\Users\fm>scrapy genspider --list
Available templates:
basic
crawl
csvfeed
xmlfeed
默认使用basic模板
调用crawl模板：
scrapy genspider -t crawl lagou www.lagou.com
添加ua：
scrapy shell -s USER_AGENT="Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.86 Safari/537.36" url
scrapy shell输出中文ÿ