Python多线程爬虫获取电影下载链接

最新推荐文章于 2024-01-17 16:35:13 发布

shu_8708

最新推荐文章于 2024-01-17 16:35:13 发布

阅读量3.7k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Python 文章标签：多线程爬虫 python 电影链接

本文链接：https://blog.csdn.net/shu_8708/article/details/75127588

本文介绍了一个Python爬虫程序，利用多线程技术从‘爱下电影网’和‘电影天堂’抓取电影下载链接。通过分析网站搜索链接结构，程序能够拼接搜索URL并使用queue和threading模块进行并发处理。尽管只适用于GET请求，但通过扩展可适应POST请求的网站。

一些电影资源网站往往广告太多，不想看广告所以做了这个程序

首先需要先分析网站的搜索链接，这里只用到了“爱下电影网”和“电影天堂”两个网站

爱下电影：http://www.aixia.cc/plus/search.php?searchtype=titlekeyword&q=%E9%80%9F%E5%BA%A6%E4%B8%8E%E6%BF%80%E6%83%85

电影天堂：http://s.dydytt.net/plus/so.php?kwtype=0&searchtype=title&keyword=%CB%D9%B6%C8%D3%EB%BC%A4%C7%E9

可以发现这两个网站搜索结果链接前部分可以固定死，后面肩上keyword(关键词)即可

所以我们的搜索链接可以按照这个规律直接拼接出来

爬虫基本思考：

二三级均为线程

首先对于queue模块，这是一种队列类型，也就是具有先入先出的特点，用这个来存放需要下载的链接

使用：

1.写入

object=queue.Queue()

object.put('what you want')

object.task_done()

2.读出

object.get()

注意如果没有对象在object中会出现堵塞

使用前一定先判断是否为空object.emoty()

其次就是thread模块

我是用的办法是创建自定义类继承与threading.Thread类

关于正则表达式这里就不再提了，我觉得正则表达式比BeautifulSoup和LXML好用一些

为了扩展性，每一个网站都用一个字典存放相关信息，这样以后需要添加其他网

站可以通过添加网站字典完成

设置一个url列表存放所有的网站信息字典

为了方便管理任务列表，我这里把所有任务放在一个key为网站名的字典中

变量展示：

task1=queue.Queue()
task2=queue.Queue()

Cannel={'爱下电影':task1,
        '电影天堂':task2
        }#队列的字典
downloadurl={'爱下电影':[],
             '电影天堂':[]}

"""
website中字典数据格式:
{
    'name':'网站名',
    'url':'网站地址半加工',
    'pat':[正则1，正则2],
    'root':'原本地址'
    'encode':'编码格式',
}
"""
aixiamovie={
    'name':'爱下电影',
    'url':r'http://www.aixia.cc/plus/search.php?searchtype=titlekeyword&q=',
    'root':r'http://www.aixia.cc',
    'pat':['<h1 class=".*?"><a href="(.*?)" target="_blank">','onclick="copyUrl(.*?)">'],
    'encode':'utf-8'
    }
tiantang={
    'name':'电影天堂',
    'url':r'http://s.dydytt.net/plus/so.php?kwtype=0&searchtype=title&keyword=',
    'root':r'http://s.dydytt.net',
    'pat':["<td width='.*?'><b><a href='(.*?)'>",'<td style=.*? bgcolor=.*?><a href="(.*?)">'],
    'encode':'gb2312',
    }
weblist=[]
weblist.append(aixiamovie)
weblist.append(tiantang)

任务启动类：

class taskstart():
    def __init__(self,keyword):
        for item in weblist:#加工搜索地址
            temp=str(keyword.encode(item['encode']))
            temp=temp.replace(r'\x','%')
            temp=temp[2:]

最低0.47元/天解锁文章