笔记

一、爬取B站、腾讯动漫、youku、爱奇艺番剧信息
使用scrapy框架爬取番剧的名称、更新集数、播放量、追番数(具体数字),存为csv文件格式
1、重写start_request方法请求初始url
2、编写parse1爬取被js修饰过的名称、集数、link(从network中的XHR中获取)可寻找到相应的json格式文件并得到想要的数据
3、编写parse2,接受parse1callback的name、setNum、link。并通过response.body得到网页文档,分析并切分最终得到所有信息并输出

二、根据搜索条爬取爱奇艺指数相关信息
爬取条目:提示框中的最优关键字、该关键字链接下受众群体的age分布、sex分布
1、重写start_request方法请求初始url
2、编写parse1爬取正真关键词,此处难点在于理清筛选逻辑(优先选择与搜索词一摸一样并且标签为动漫的关键词,次选在不相等的情况下所有标为动漫标签中的首个关键词,再次之选择建议框中第一项,前三种情况都无的话标记为None)
3、编写parse2,找到对应age、age_percent、sex、sex_percent位置,爬取最终信息

三、根据搜索词爬取豆瓣动漫相关词条(实际名称、种类、上映日期、集数、导演、主演、编剧等)
1、此处事先编写了随机代理池、随机user-agent、以及随机cookie池等中间件(模拟登录)
2、根据关键词过滤出动漫(依据真名及别名等塞出)
3、存储时使用了断点记录(通过将每个搜索词当作一个任务,搜索过的将flag置为1,下次再运行爬虫时只会请求那些flag为0的搜索词)
4、其他的就跟上面一样了,几个parse传递下去,最终得到想要的字段(内部逻辑就不赘述了)

四、根据搜索词爬取爱艺奇、腾讯视频、B站、优酷的相关信息

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值