一篇文章教会你利用Python网络爬虫获取Mikan动漫资源

【一、项目背景】

[蜜柑计划 - Mikan Project] :新一代的动漫下载站。是一个专门为喜欢动漫的小伙伴们打造的动漫视频在线播放网站,为大家第一时间分享最新动漫资源,每日精选最优质的动漫推荐。

【二、项目目标】

   实现获取动漫种子链接,并下载保存在文档。

【三、涉及的库和网站】

1、网址如下:

https://mikanani.me/Home/Classic/{}

2、涉及的库:reques**ts、lxml、fake_useragent**

3、软件:PyCharm

【四、项目分析】

   首先需要解决如何对下一页的网址进行请求的问题。可以点击下一页的按钮,观察到网站的变化分别如下所示:

https://mikanani.me/Home/Classic/1

https://mikanani.me/Home/Classic/2

https://mikanani.me/Home/Classic/3

   点击下一页时,每增加一页Classic/()自增加1,用{}代替变换的变量,再用for循环遍历这网址,实现多个网址请求。

【五、反爬措施】

1、获取正常的 http请求头,并在requests请求时设置这些常规的http请求头。

2、使用 fake_useragent ,产生随机的UserAgent进行访问。

【六、项目实施】

1、我们定义一个class类继承object,然后定义init方法继承self,再定义一个主函数main继承self。导入需要的库和网址。

import requests
from lxml import etree
from fake_useragent import UserAgent

class  Mikan(object):
    def __init__(self):
      self.url = "https://mikanani.me/Home/Classic/{}"

    def main(self):
        pass

if __name__ == '__main__':
    Siper = Mikan()
    Siper.main()

2、主方法(main):for循环实现多个网页请求。

stat = int(input("start :"))
end = int(input(" end:"))
for page in range(stat, end + 1):
    url = self.url.format(page)
    print(url)

3、 随机产生UserAgent。

for i in range(1, 50):
            self.headers = {
                'User-Agent': ua.random,
            }

4、发送请求  获取响应, 页面回调,方便下次请求。

def get_page(self, url):
    res = requests.get(url=url, headers=self.headers)
    html = res.content.decode("utf-8")
    return html

5、xpath解析一级页面数据,for循环遍历补全网址,获取二级页面网址。

parse_html = etree.HTML(html)
one = parse_html.xpath('//tbody//tr//td[3]/a/@href')
for li in one:
    yr = "https://mikanani.me" + li

6、二级页面请求 ,先找到页面父节点,for循环遍历,再用path获取到种子的下载地址。补全种子链接地址。

tow = parse_html2.xpath('//body')
for i in tow:
    four = i.xpath('.//p[@class="episode-title"]//text()')[0].strip()
    fif = i.xpath('.//div[@class="leftbar-nav"]/a[1]/@href')[0].strip()
    # print(four)
    t = "https://mikanani.me" + fif
    print(t)

7、保存在word文档 。

 dirname = "./种子/" + four[:15] + four[-20:] + '.torrent'
  # print(dirname)
  html3 = requests.get(url=t, headers=self.headers).content
  with open(dirname, 'wb') as f:
      f.write(html3)
      print("\n%s下载成功" % four)

8、调用方法,实现功能。

 html = self.get_page(url)
 self.parse_page(html)

【七、效果展示】

1、运行程序,在控制台输入起始页,终止页,如下图所示。

2、将下载成功的图片信息显示在控制台,如下图所示。

3、保存.torrent文档。

4、如何打开种子文件?先上传到百度云盘,如下图所示。

5、双击解析下载,如下图所示。

【八、总结】

1、不建议抓取太多数据,容易对服务器造成负载,浅尝辄止即可。

2、本文章就python爬取Mikan Project,在下载种子的难点和重点,以及如何防止反爬,做出了相对于的解决方案。

3、介绍了如何去拼接字符串,以及列表如何进行类型的转换。

4、欢迎大家积极尝试,有时候看到别人实现起来很简单,但是到自己动手实现的时候,总会有各种各样的问题,切勿眼高手低,勤动手,才可以理解的更加深刻。

5、Mikan Project还提供了星期的专栏。每一天都可以看到好看的动漫。专门为喜欢动漫的小伙伴们打造的动漫视频。

6、需要本文源码的小伙伴,后台回复“动漫资源”四个字,即可获取。

看完本文有收获?请转发分享给更多的人

IT共享之家

入群请在微信后台回复【入群】

想学习更多Python网络爬虫与数据挖掘知识,可前往专业网站:http://pdcfighting.com/

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
以下是NBA历史前50大巨星的排名: 1. 迈克尔·乔丹(Michael Jordan) 2. 拉里·伯德(Larry Bird) 3. 魔术师约翰逊(Magic Johnson) 4. 比尔·拉塞尔(Bill Russell) 5. 奥斯卡·罗伯特森(Oscar Robertson) 6. 威尔特·张伯伦(Wilt Chamberlain) 7. 科比·布莱恩特(Kobe Bryant) 8. 蒂姆·邓肯(Tim Duncan) 9. 杰里·韦斯特(Jerry West) 10. 卡里姆·阿卜杜勒-贾巴尔(Kareem Abdul-Jabbar) 11. 朱利叶斯·欧文(Julius Erving) 12. 伦纳德·弗洛伊德(Lenoard Fournette) 13. 卡尔·马龙(Karl Malone) 14. 莫西·马龙(Moses Malone) 15. 查尔斯·巴克利(Charles Barkley) 16. 艾伦·艾弗森(Allen Iverson) 17. 费城76人乔治·麦肯(George Mikan) 18. 艾尔金·贝勒(Elgin Baylor) 19. 斯蒂夫·纳什(Steve Nash) 20. 詹姆斯·哈登(James Harden) 21. 凯文·加内特(Kevin Garnett) 22. 阿尔吉·贝勒(Archie Bel) 23. 詹姆斯·沃西(James Worthy) 24. 约翰·哈维切克(John Havlicek) 25. 科林·考珀(Kawhi Leonard) 26. 伯纳德·金(Bernard King) 27. 艾迪·琼斯(Eddie Jones) 28. 吉姆·邦德(Jim Boud) 29. 鲍勃·卡尔(Bob Cousy) 30. 波比·琼斯(Bobby Jones) 31. 格兰特·希尔(Grant Hill) 32. 贾马尔·威尔士(Jamaal Wilkes) 33. 瑞克·巴里(Rick Barry) 34. 克莱德·德雷克斯勒(Clyde Drexler) 35. 约翰·斯托克顿(John Stockton) 36. 埃尔文·海耶斯(Elvin Hayes) 37. 格奥尔格·加瓦尼(George Gervin) 38. 丹尼斯·罗德曼(Dennis Rodman) 39. 阿尔·杰弗森(Al Jefferson) 40. 肖恩·肯普(Shawn Kemp) 41. 杰森·基德(Jason Kidd) 42. 克里斯·波什(Chris Bosh) 43. 安东尼奥·麦克迪斯(Antonio McDyess) 44. 贾森·威廉姆斯(Jayson Williams) 45. 恩尼斯特·威廉姆斯(Eniest Wil) 46. 维诺·贾努比利(Manu Ginobili) 47. 格伦·莱斯(Glen Rice) 48. 丹尼尔·吉布森(Daniel Gibson) 49. 布莱恩·斯卡拉布林(Brian Scalabrine) 50. 萨姆·卡塞尔(Sam Cassell)

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值