scrapy
青衫折扇
互联网发展迅速,使我们的脚步更快,生活更好,环境变差,使人变得懒惰,有压力才会 让自己变得更强...
展开
-
scrapy爬取笔趣阁获取全部内容,清晰过滤,得到想要的数据
简单的创建scraly我就不多说了,浪费时间spider# -*- coding: utf-8 -*-import scrapyfrom ..items import BiItemimport reclass QuSpider(scrapy.Spider): name = 'qu' allowed_domains = ['xbiquge.la'] st...原创 2019-03-21 14:51:48 · 1537 阅读 · 0 评论 -
scrapy爬取小说整站,并下载图片保存到本地,获取本地地址存储到对应得小说
首先我们来看看代码吧,有些重点,我会单独列出来1: 创建项目scrapy startproject books2: 创建spider文件 scrapy genspider book quanshuwang.com 注: 本次项目案例爬取的是全书网3: 更换目标的完整地址 http://www.quanshuwang.com4: 我先说一下我这次的...原创 2020-04-29 10:42:05 · 992 阅读 · 1 评论 -
scrapy爬取图片并下载报错ValueError:Missing scheme in request url: h解决办法
这里我直接说解决办法了修改前修改后images_url = response.xpath("//a[@class='l mr11']/img/@src").extract_first() # 图片地址item['images_url'] = images_urlimages_url = response.xpath("//a[@class='l mr11']...原创 2020-04-29 09:03:04 · 433 阅读 · 0 评论 -
scrapy实现定时爬取
我们在项目根目录建一个main.py文件import timefrom scrapy import cmdlineif __name__ == '__main__': while Ture: print("爬虫启动................") cmdline.execute("scrapy crawl spider".split()) print("爬虫结束...........原创 2020-05-29 10:53:40 · 1192 阅读 · 0 评论 -
scrapy定时爬取小技巧(简单明了)
在spider目录下 新建py文件写入如下代码import osimport timeif __name__ == '__main__':# os.system('pwd')while True:os.system("scrapy crawl aqy")# 每1个小时执行一次 60*60 # 每2个小时执行一次 60...原创 2020-04-30 14:59:53 · 646 阅读 · 0 评论 -
scrapy连接Mysql数据库,实现分表插入(超详细)
我们来看一下流程目标: 全书网地址: http://www.quanshuwang.com内容: 抓取网站所有小说分类,小说,章节,内容 分四张表分别存储将封面下载到本地,将图片url替换成本地的技术:python scrpay框架, (为什么选这个,因为scrapy自带高并发,多线程,程序启动刹不住,必须强行关闭)mysql 作为我们...原创 2020-04-30 14:52:47 · 851 阅读 · 0 评论