我用 Python 爬了点你们喜欢的电影，这些电影真的很不错！

最新推荐文章于 2024-06-28 10:31:48 发布

Python资深程序员

最新推荐文章于 2024-06-28 10:31:48 发布

阅读量361

点赞数

分类专栏： Python 文章标签： Python

本文链接：https://blog.csdn.net/Pythoncxy/article/details/100137605

版权

本文介绍了使用Python编写多线程爬虫爬取电影天堂网站资源的过程，包括解析网页结构，提取分类信息，处理分页，以及使用多线程提升爬取效率。通过学习，可以了解网络爬虫的基本工作原理和Python爬虫的实现方法。

摘要由CSDN通过智能技术生成

最近花些时间学习了一下Python，并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址。刚开始学习python希望可以获得宝贵的意见。

先来简单介绍一下，网络爬虫的基本实现原理吧。一个爬虫首先要给它一个起点，所以需要精心选取一些URL作为起点，然后我们的爬虫从这些起点出发，抓取并解析所抓取到的页面，将所需要的信息提取出来，同时获得的新的URL插入到队列中作为下一次爬取的起点。这样不断地循环，一直到获得你想得到的所有的信息爬虫的任务就算结束了。我们通过一张图片来看一下。

Python资源共享群：626017123

好的下面进入正题，来讲解下程序的实现。

首先要分析一下电影天堂网站的首页结构。

从上面的菜单栏中我们可以看到整个网站资源的总体分类情况。刚刚好我们可以利用到它的这个分类，将每一个分类地址作为爬虫的起点。

①解析首页地址提取分类信息

#解析首页
def CrawIndexPage(starturl):
    print "正在爬取首页"
    page = __getpage(starturl)
    if page=="error":
        return
    page = page.decode('gbk', 'ignore')
    tree = etree.HTML(page)
    Nodes = tree.xpath("//div[@id='menu']//a")
    print "首页解析出地址",len(Nodes),"条"