最新用Python网络爬虫获取Mikan动漫资源(2)，头条Python面试题

最新推荐文章于 2024-09-27 10:11:28 发布

2401_84140302

最新推荐文章于 2024-09-27 10:11:28 发布

阅读量746

点赞数 12

分类专栏：程序员文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/2401_84140302/article/details/138563649

版权

程序员专栏收录该内容

146 篇文章 2 订阅

订阅专栏

（1）Python所有方向的学习路线（新版）

这是我花了几天的时间去把Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

最近我才对这些路线做了一下新的更新，知识体系更全面了。

在这里插入图片描述

（2）Python学习视频

包含了Python入门、爬虫、数据分析和web开发的学习视频，总共100多个，虽然没有那么全面，但是对于入门来说是没问题的，学完这些之后，你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。

在这里插入图片描述

（3）100多个练手项目

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了，只是里面的项目比较多，水平也是参差不齐，大家可以挑自己能做的项目去练练。

在这里插入图片描述

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

def main(self):
    pass

if name == ‘main’:
Siper = Mikan()
Siper.main()


2、主方法（main）：for循环实现多个网页请求。

stat = int(input(“start :”))
end = int(input(" end:"))
for page in range(stat, end + 1):
url = self.url.format(page)
print(url)


3、 随机产生UserAgent。

for i in range(1, 50):
self.headers = {
‘User-Agent’: ua.random,
}


4、发送请求 获取响应, 页面回调，方便下次请求。

def get_page(self, url):
res = requests.get(url=url, headers=self.headers)
html = res.content.decode(“utf-8”)
return html


5、xpath解析一级页面数据,for循环遍历补全网址，获取二级页面网址。

parse_html = etree.HTML(html)
one = parse_html.xpath(‘//tbody//tr//td[3]/a/@href’)
for li in one:
yr = “https://mikanani.me” + li


6、二级页面请求 ，先找到页面父节点，for循环遍历，再用path获取到种子的下载地址。补全种子链接地址。

tow = parse_html2.xpath(‘//body’)
for i in tow:
four = i.xpath(‘.//p[@class=“episode-title”]//text()’)[0].strip()
fif = i.xpath(‘.//div[@class=“leftbar-nav”]/a[1]/@href’)[0].strip()
# print(four)
t = “https://mikanani.me” + fif
print(t)


7、保存在word文档 。

dirname = “./种子/” + four[:15] + four[-20:] + ‘.torrent’

print(dirname)

html3 = requests.get(url=t, headers=self.headers).content
with open(dirname, ‘wb’) as f:
f.write(html3)
print(“\n%s下载成功” % four)


8、调用方法，实现功能。

html = self.get_page(url)
self.parse_page(html)


**【七、效果展示】**


1、运行程序，在控制台输入起始页，终止页，如下图所示。


![用Python网络爬虫获取Mikan动漫资源](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9wNi10dC5ieXRlaW1nLmNvbS9vcmlnaW4vcGdjLWltYWdlL2FhYWViY2U2MGE3MTQ5ZDE5ZDZjYzNhMGM2OGFiNDkx?x-oss-process=image/format,png)


2、将下载成功的图片信息显示在控制台，如下图所示。


![用Python网络爬虫获取Mikan动漫资源](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9wMy10dC5ieXRlaW1nLmNvbS9vcmlnaW4vcGdjLWltYWdlLzQzZTU5NGMwMWM3MTQ2NmY5NmI3MjFmZWQ0NmQyMWQ1?x-oss-process=image/format,png)


3、保存.torrent文档。


![用Python网络爬虫获取Mikan动漫资源](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9wNi10dC5ieXRlaW1nLmNvbS9vcmlnaW4vcGdjLWltYWdlL2M3ZjQzZDk5NWZmZDQ4NjBhZmZjNjhkM2RjODQ4ZjVl?x-oss-process=image/format,png)


4、如何打开种子文件？先上传到百度云盘，如下图所示。


![用Python网络爬虫获取Mikan动漫资源](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9wMS10dC5ieXRlaW1nLmNvbS9vcmlnaW4vcGdjLWltYWdlL2VjZmI3YmM4ZGViNDRiYmQ5YmI1Yjc2YmJkMzAwMzQ4?x-oss-process=image/format,png)


5、双击解析下载，如下图所示。


![用Python网络爬虫获取Mikan动漫资源](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9wMS10dC5ieXRlaW1nLmNvbS9vcmlnaW4vcGdjLWltYWdlL2I2N2E3ZWRhZWM0YjRjMTI5YzNiODg0NDBhNjRjYjIw?x-oss-process=image/format,png)


**【八、总结】**


1、不建议抓取太多数据，容易对服务器造成负载，浅尝辄止即可。



### 最后

> **🍅 硬核资料**：关注即可领取PPT模板、简历模板、行业经典书籍PDF。  
> **🍅 技术互助**：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。  
> **🍅 面试题库**：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。  
> **🍅 知识体系**：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。




**网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。**

**[需要这份系统化学习资料的朋友，可以戳这里获取](https://bbs.csdn.net/topics/618317507)**

**一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**