![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 77
mt 2333
这个作者很懒,什么都没留下…
展开
-
多个scrapy爬虫爬取数据写入Django中的数据库------scrapyd服务管理多个爬虫
起因:在实现一个系统时需要加入scrapy爬虫框架,涉及多个爬虫,原先只想简单启动爬虫,参考了第五个链接,但发现还是不太方便,后了解scrapyd可以管理爬虫,如修改,删除,添加,运行等,故引入了scrapyd服务。本文涉及了在django项目中引入scrapy爬虫,将爬虫数据写入django中的数据库,并使用scrapyd服务管理scrapy爬虫。参考:如何在django中运行scrapy框架django搭建博客之集成scrapyDjango项目中运行Scrapy项目Django+Scra.原创 2021-06-19 20:11:05 · 1058 阅读 · 0 评论 -
爬取在线全面小说网小说(字体反爬)
小说网字体反爬小说网址:https://www.tianhuajinshu.com/在手机端浏览小说时,有时候开启无图模式发现部分文字加载不出来,还有的不能使用浏览自带的阅读模式进行阅读,也就是无法解析,所以进一步探究原因,最后发现是小说网站设置了字体反爬。在爬取之前查了一些资料:爬虫:碰见字体反爬如何处理 --程序员大本营字体反爬的解决方案——突破抖音反爬虫机制爬虫进阶-- 字体反爬终极解析百度字体编辑器刚开始网上提供的一些案例基本是"58同城"、抖音,还有一个电影网(忘记是啥了)。原创 2021-03-03 21:37:55 · 2364 阅读 · 2 评论 -
scrapy爬取晋江免费小说(章节)+ cookie爬vip章节
思路:先打开晋江任意一篇小说的第一章,然后爬取该章节的名字、内容,以及该小说的名字,下一章节的链接;利用下一章节的链接实现重复的爬取,其中章节的名字、内容、小说名字存储在item字典中;最后将爬取到的内容进行整理写入txt文件。其实也可以在目录页提取各个章节的链接进行爬取,实现的是前一种方法。1.创建项目创建Scrapy项目,在shell中使用scrapy startproject命令:s...原创 2020-02-09 15:22:18 · 22663 阅读 · 10 评论 -
scrapy下载文件(《精通Scrapy网络爬虫》第九章)
爬取matplotlib例子源码文件1.需求分析下载http://matplotlib.org网站中所有例子的源码文件到本地。2.页面分析先来看看如何在例子页面https://matplotlib.org/examples/index.html中获取所有例子的链接。使用scrapy shell命令下载页面,然后调用view函数在浏览器中查看页面。scrapy shell https://...原创 2019-08-26 19:03:52 · 333 阅读 · 1 评论 -
scrapy下载图片(《精通scrapy网络爬虫》第九章)
下载360图片1.需求分析下载360图片网站中艺术分类下的所有图片到本地2.页面分析原创 2019-09-01 22:47:22 · 237 阅读 · 5 评论