scrapy
文章平均质量分 64
丹尼尔•卡尼�
这个作者很懒,什么都没留下…
展开
-
scrapy实践三(爬取豆瓣某话题下图片)
前言全局思路目标爬取豆瓣话题【你看过哪些非常有哲理的漫画】下的所有图片过程梳理先用普通selenium试一试,然后再使用scrapy爬取观察网页向下滑动会一直出现图片普通selenium方法思路:用保存了cookie的selenium登录该页面定位图片的一次保存操作代码如下#Cookie: ll="108297"; bid=Js9xsAq24wE; __yadk_uid=Dl3d4S34ZIAcgpdKiBb7MzSGIeRgFKar; _vwo_uuid_v2=DC3BB8原创 2021-02-21 15:24:01 · 323 阅读 · 0 评论 -
scrapy实践二(selenium爬取腾讯漫画【失败】)
前言一个月前曾学习过爬取腾讯动漫全站的示例代码,现在再用scrapy尝试过程新建spider爬虫编写普通selenium爬虫爬取漫画观察网页本次目标是爬取热门排行下的漫画右键检查可以发现漫画标题和链接可以轻松获取(前提是用selenium)一步from selenium import webdriverfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.common.by i原创 2021-02-18 11:20:18 · 599 阅读 · 0 评论 -
scrapy实践一(CrawlSpider爬取图片并存储)
前言为公众号收集电影图片素材使用scrapy图片下载目标网站https://film-grab.com/爬取成果因为已经有了一次爬取成功的基础,再加上这个网站结构跟上个例子差不多,所以很快就达到了目的。有多快呢十分钟不到代码参考settings.py(已删除多余部分)BOT_NAME = 'pictures'SPIDER_MODULES = ['pictures.spiders']NEWSPIDER_MODULE = 'pictures.spiders'ROBOTSTXT_O原创 2021-02-16 14:54:55 · 496 阅读 · 0 评论 -
scrapy笔记三(selenium)
前言继续实例--------->爬取简书用普通selenium方式抓取数据首先打开网站发现需要点击展开更多才能获取想要的信息,只能通过selelnium来实现可以看到,目标元素的class的值是经过压缩加密的,这是一种反爬措施。每一次重新更新网站结构时,这个class的名称都会发生改变所以可以通过结构来找到这个元素,这个网站的元素经常变化,需要有可靠定位方法这样爬虫会存活久一点代码如下from selenium import webdriverfrom selenium.web原创 2021-02-11 09:24:19 · 258 阅读 · 0 评论 -
scrapy笔记二(CrawlSpider爬取图片并存储)
前言实例流程和技术点分析以中国插画网为目标网站新建CHAHUA项目,chahua爬虫名,start.py文件为执行文件settings.py(协议False、请求头、pipeline、imageastore)chahua.pypipeline.pyitems.py重点理论原创 2021-02-10 08:54:27 · 403 阅读 · 2 评论 -
scrapy笔记一(scrapy.Spider爬取文字并储存)
前言今天学习爬虫网页项目时遇到xpath解析问题,纠结了十几分钟也没成功解决。让我不安的是这个知识点不难,而且之前已经重复学习了多次,如此的记忆效果使我不得不重新审视笔记的作用。很显然一些博客记录学习笔记和反刍学习内容正变得迫在眉睫,简直到了不可不做的地步了。scapy安装安装过程费劲,csdn教程很多,逐步下载相应文件一步步来,需要耐心。遇到pip无法下载的第一选择失去换镜像源,然后再考虑.whl文件安装scrapy基础理论知识记于软面笔记本上结合实体书略看略记,实践第一scrapy实例记录原创 2021-02-08 19:15:54 · 429 阅读 · 0 评论