python中的scrapy爬虫_基于Python的Scrapy爬虫入门：代码详解

最新推荐文章于 2023-02-06 15:21:59 发布

秋冬将至

最新推荐文章于 2023-02-06 15:21:59 发布

阅读量128

点赞数

文章标签： python中的scrapy爬虫

本文链接：https://blog.csdn.net/weixin_32641973/article/details/113502709

版权

CTO练习营 | 12月3-5日，深圳，是时刻成为优良的技巧治理者了

根据属性名称很轻易知道对应的内容含义，这里我们只需关怀 postlist 这个属性，它对应的一个数组元素就是一个图集，图集元素中有几项属性我们须要用到：url：单个图集浏览的页面地址

post_id：图集编号，在网站中应当是独一的，可以用来断定是否已经抓取过该内容

site_id：作者站点编号，构建图片来源链接要用到

title：标题

excerpt：摘要文字

type：图集类型，今朝发明两种，一种multi-photo是纯照片，一种text是文字与图片混淆的文┞仿式页面，两种内容构造不合，须要不合的抓取方法，本例中只抓取纯照片类型，text类型直接丢弃

tags：图集标签，有多个

image_count：图片数量

images：图片列表，它是一个对象数组，每个对象中包含一个img_id属性须要用到

3e5e7145b18d397d7af1396886e8a22c.jpg-wh_651x-s_448964360.jpg

一、内容分析

接下来创建一个爬虫项目，以图虫网为例抓取琅绫擎的图片。在顶部菜单“发明” “标签”琅绫擎是对各类图片的分类，点击一个标签，比如“美男”，网页的链接为：https://tuchong.com/tags/美男/，我们以此作为爬虫人口，分析一下该页面：

打开页面后出现一个个的图集，点击图集可全屏浏览图片，向下滚动页面会出现更多的图集，没有页码翻页的设置。Chrome右键“检查元素”打开开辟者对象，检查页面源码，内容部分如下：

关注