Python3.x+迅雷x 自动下载高分电影，嘿嘿！你懂的

最新推荐文章于 2023-04-17 15:14:53 发布

学术严谨

最新推荐文章于 2023-04-17 15:14:53 发布

阅读量9.3k

点赞数

文章标签： python 编程语言

本文链接：https://blog.csdn.net/RRRJ97699/article/details/105800770

版权

话说以前玩Python的时候爬过挺多网站的，都是在公司干的(Python不属于公司的业务范围，纯属自己折腾着好玩)，

我那个负责运维的同事天天跑过来说：你又在爬啥啊，你去看看新闻，某某爬东西又被抓了！出了事你自己负责啊！哎呀我的娘亲，吓的都没继续玩下去了。这个博客是爬取某天堂的资源(具体是哪个天堂下面的代码里会有的)，会不会被抓啊？单纯的作为技术讨论，个人练手，不做商业用途应该没事吧？写到这里小手不禁微微颤抖…

得嘞，死就死吧，我不入地狱谁入地狱，先看最终实现效果:

如上，这个下载工具是有界面的(牛皮吧)，只要输入一个根地址和电影评分，就可以自动爬电影了，要完成这个工具需要具备以下知识点：

PyCharm的安装和使用这个不多说，猿们都懂，不属于猿类的我也没办法科普了，就是个IDE
tkinter 这是个Python GUI开发的库，图中这个简陋的可怜的界面就是基于TK开发的，不想要界面也可以去掉，丝毫不影响爬电影，加上用户界面可以显得屌一点，当然最主要的是我想学习一点新知识
静态网页的分析技巧相对于动态网站的爬取，静态网站的爬取就显得小菜了，F12会按吧，右键查看网页源代码会吧，通过这些简单的操作就可以查看网页的排版布局规则，然后根据这些规则写爬虫，soeasy
数据持久化已经下载过的电影，下次再爬电影的时候不希望再下载一次吧，那就把下载过的链接存储起来，下载电影之前去比对是否下载过，以过滤重复下载
迅雷X的下载安装这个就更不用多说了，作为当代社会主义有为青年，谁没用过迅雷？谁的硬盘里没有几部动作类型的片子？

差不多就这些了，至于实现的技术细节的话，也不多，requests+BeautifulSoup的使用，re正则，Python数据类型，Python线程，dbm、pickle等数据持久化库的使用，等等，这个工具也就这么些知识范畴了。当然，Python是面向对象的，编程思想是所有语言通用的，这个不是一朝一夕的事，也没办法通过语言描述清楚。各位对号入座，以上哪个知识面不足的自己去翻资料学习，我可是直接贴代码的。

在学习过程中有什么不懂得可以加我的
python学习qun，855408893
群里有不错的学习视频教程、开发工具与电子书籍。  
与你分享python企业当下人才需求及怎么从零基础学习好python，和学习什么内容

import url_manager import html_parser import html_download import persist_util from tkinter import *
from threading import Thread import os class SpiderMain(object): def __init__(self):
        self.mUrlManager = url_manager.UrlManager()
        self.mHtmlParser = html_parser.HtmlParser()
        self.mHtmlDownload = html_download.HtmlDownload()
        self.mPersist = persist_util.PersistUtil() # 加载历史下载链接
    def load_history(self):
        history_download_links = self.mPersist.load_history_links() if history_download_links is not None and len(history_download_links) > 0: for download_link in history_download_links:
                self.mUrlManager.add_download_url(download_link)
                d_log("加载历史下载链接: " + download_link) # 保存历史下载链接
    def save_history(self):
        history_download_links = self.mUrlManager.get_download_url() if history_download_links is not None and len(history_download_links) > 0:
            self.mPersist.save_history_links(history_download_links) def craw_movie_links(self, root_url, score=8):
        count = 0;
        self.mUrlManager.add_url(root_url) while self.mUrlManager.has_continue(): try:
                count = count + 1 url = self.mUrlManager.get_url()
                d_log("craw %d : %s" % (count, url))
                headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.62 Safari/537.36', 'Referer': url

最低0.47元/天解锁文章

学术严谨

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python3.x+迅雷x 自动下载高分电影，嘿嘿！你懂的

话说以前玩Python的时候爬过挺多网站的，都是在公司干的(Python不属于公司的业务范围，纯属自己折腾着好玩)，我那个负责运维的同事天天跑过来说：你又在爬啥啊，你去看看新闻，某某爬东西又被抓了！出了事你自己负责啊！哎呀我的娘亲，吓的都没继续玩下去了。这个博客是爬取某天堂的资源(具体是哪个天堂下面的代码里会有的)，会不会被抓啊？单纯的作为技术讨论，个人练手，不做商业用途应该没事吧？写到这里小手...
复制链接

扫一扫