![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
scrapy
a_py
web
展开
-
scrapy中设置代理的三种方式(内置(2),自定义(1))
爬虫经常会用到代理ip如果你用你的ip可能用不了多久就会被封掉的,这时候就要使用代理ip了:scrapy里面其实有内置的代理拓展,源码这边我就不一一说明了直接说如何使用:要使用代码必须要在爬虫开始前:所以第一种的使用是在我们的start_request里面:内置(1): def start_requests(self): # 这里是代理ip import o...原创 2019-07-19 10:08:51 · 14617 阅读 · 0 评论 -
scrapy的pipeline(持久化)
我这边已经创建好一个名为scrapy_pipeline的项目了。然后创建一个爬虫为douban:项目目录如下:爬取豆瓣网需要伪装浏览器,修改settings.py文件的内容:# Crawl responsibly by identifying yourself (and your website) on the user-agent#USER_AGENT = 'scrapy_pipeli...原创 2019-07-19 21:46:20 · 906 阅读 · 0 评论 -
自定制命令(让scrapy在pycharm下跑起来)
pytcharm运行单个爬虫:# -*- coding: utf-8 -*-# @Time : 2019/7/19 下午 5:19# @Author : lh# @Email : xx@lh.com# @File : manage.py# @Software: PyCharmimport sysfrom scrapy.cmdline import execute...原创 2019-07-20 10:54:04 · 226 阅读 · 0 评论