Scrapy爬取jav图书馆人气女演员作品链接

版权声明:本文为博主原创文章,欢迎转载并请声明出处. https://blog.csdn.net/lucifer_sam/article/details/51810336

  jav图书馆是个多么神奇的地方这里不用多说,大家经常在此提升自己的姿势水平…而这个网站是不提供资源链接下载的,在使用的过程中,常常会有这样的感觉:疲于查看喜欢的演员作品更新,并去其他网站收集神秘代码。这样的工作重复且无聊,很费时间和精力,如果有一个东西能将现在top20的人气女演员的所有作品的资源链接一键下载到本地,那该多好啊!而这,并不是梦。
  使用scrapy爬虫框架可以轻松做到这样的事情。这个爬虫,由top20页面始,分别进入各个演员的作品列表页面搜集神秘代码,以及相应的标题和出版时间信息,结合torrentkitty网站,通过构造该资源网站搜索时根据神秘代码产生的相应url,进入页面之后,便可得到资源链接,将它们按目录保存在本地的txt文件当中即可。
  创建一个javlink的project。

scrapy startproject javlink

  items.py没什么好说的。

import scrapy


class JavlinkItem(scrapy.Item):

    actress = scrapy.Field()
    artwork = scrapy.Field()
    bango = scrapy.Field()
    title = scrapy.Field()
    link = scrapy.Field()
    posttime = scrapy.Field()

  pipelines.py写了两个,第一个是保存到json格式中,但每个演员之间是分开的,不实用。后来又依照前两个爬虫设置目录的思路,将资源链接保

没有更多推荐了,返回首页