笔记

最新推荐文章于 2024-07-04 09:19:40 发布

weixin_40530363

最新推荐文章于 2024-07-04 09:19:40 发布

阅读量141

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/weixin_40530363/article/details/90056998

版权

爬虫专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一、爬取B站、腾讯动漫、youku、爱奇艺番剧信息
使用scrapy框架爬取番剧的名称、更新集数、播放量、追番数（具体数字），存为csv文件格式
1、重写start_request方法请求初始url
2、编写parse1爬取被js修饰过的名称、集数、link（从network中的XHR中获取）可寻找到相应的json格式文件并得到想要的数据
3、编写parse2，接受parse1callback的name、setNum、link。并通过response.body得到网页文档，分析并切分最终得到所有信息并输出

二、根据搜索条爬取爱奇艺指数相关信息
爬取条目：提示框中的最优关键字、该关键字链接下受众群体的age分布、sex分布
1、重写start_request方法请求初始url
2、编写parse1爬取正真关键词，此处难点在于理清筛选逻辑（优先选择与搜索词一摸一样并且标签为动漫的关键词，次选在不相等的情况下所有标为动漫标签中的首个关键词，再次之选择建议框中第一项，前三种情况都无的话标记为None）
3、编写parse2，找到对应age、age_percent、sex、sex_percent位置，爬取最终信息

三、根据搜索词爬取豆瓣动漫相关词条（实际名称、种类、上映日期、集数、导演、主演、编剧等)
1、此处事先编写了随机代理池、随机user-agent、以及随机cookie池等中间件（模拟登录）
2、根据关键词过滤出动漫（依据真名及别名等塞出）
3、存储时使用了断点记录（通过将每个搜索词当作一个任务，搜索过的将flag置为1，下次再运行爬虫时只会请求那些flag为0的搜索词）
4、其他的就跟上面一样了，几个parse传递下去，最终得到想要的字段（内部逻辑就不赘述了）

四、根据搜索词爬取爱艺奇、腾讯视频、B站、优酷的相关信息

weixin_40530363

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
笔记

爬取B站、腾讯动漫番剧信息使用scrapy框架爬取番剧的名称、更新集数、播放量、追番数（具体数字），存为csv文件格式1、重写start_request方法请求初始url2、编写parse1爬取被js修饰过的名称、集数、link（从network中的XHR中获取）可寻找到相应的json格式文件并得到想要的数据3、编写parse2，接受parse1callback的name、setNum、l...
复制链接

扫一扫

专栏目录