爬虫
爬虫学习笔记
lzz_zmm
这个作者很懒,什么都没留下…
展开
-
scrapy的setting.py和pipeline
settings BOT_NAME = 'yangguang' # 项目名 SPIDER_MODULES = ['yangguang.spiders'] # 爬虫位置 NEWSPIDER_MODULE = 'yangguang.spiders' # 新建的爬虫在什么位置 USER_AGENT = “使用的代理” ROBOTSTXT_OBEY = False #是否遵守robot协议 CONCURRENT_REQUESTS = 32 # 最大并发数 DOWNLOAD_DELAY = 3 #下载延迟 CONC原创 2021-09-22 10:06:43 · 116 阅读 · 0 评论 -
开始scrapy
1、创建一个项目 scrapy startproject project_name 2、使用以下命令创建新的蜘蛛 cd project_name scrapy genspider mydomain mydomain.com 3、Scrapy包含一些内置命令,可用于您的项目。用命令查看可用命令的列表 scrapy -h 4、工作流程 1)创建一个scrapy项目 2)生成一个爬虫 3)提取数据 完善spider,使用xpath等方法 4)保存数据 pipeline中保存数据 5、目录 i原创 2021-09-19 23:28:56 · 102 阅读 · 0 评论 -
爬虫学习中的报错与解决
1、fake_useragent.errors.FakeUserAgentError: Maximum amount of retries reached from fake_useragent import UserAgent ua = UserAgent() 构建代理池时报错! 解决: 1、查看指定路径 import tempfile print(tempfile.gettempdir()) 2、 https://fake-useragent.herokuapp.com/browsers/0.1.原创 2021-09-14 22:44:00 · 93 阅读 · 0 评论