趣味学python（023）

最新推荐文章于 2024-05-12 18:38:45 发布

大笨钟47

最新推荐文章于 2024-05-12 18:38:45 发布

阅读量197

点赞数

分类专栏： python（学习爬虫）

本文链接：https://blog.csdn.net/qq_45033722/article/details/103208021

版权

python（学习爬虫）专栏收录该内容

19 篇文章 0 订阅

订阅专栏

百思不得其解——视频爬取

今天，小编学习了关于百四不得其解视频得爬取，该网站并没有采取Ajax请求或者一些其他得关于请求参数加密得方法，所以是很好进行爬取得。

网址如下：
http://www.budejie.com/

在这里插入图片描述
打开浏览器得开发者工具，查看网页源代码，再对相应得 html进行分析，分析网址所在。

本次，小编采用得是正则表达式re,python中提供关于正则得入口。
首先，模块导入

import requests
# 正则表达式
import re
# 下载视频的工具包
import urllib.request

下面定义一个全局变量用来存储爬取后得视频标题及视频得连接。方便以后进行索引。

'''
声明全局变量 除了视频资源后还有其他的数据，
选哟筛选数据，将筛选后的数据存储到全局变量中
'''

url_name = []

下面，获取数据：

def get_url():
    url = 'http://www.budejie.com/'

    # 利用requests请求数据
    html = requests.get(url).text
    # print(html)

    # 数据筛选
    url_content = re.compile(r'<div class="j-r-list-c">.*?</div>.*?/div>', re.S)
    url_contents = re.findall(url_content, html)
    for i in url_contents:
        # 进一步提取数据，包括 视频标题 和视频连接
        url_reg = r'data-original="(.*?)"'
        url_items = re.findall(url_reg, i)
        # print(url_items)
        # 提取视频标题
        if url_items:
            name_reg = re.compile(r'a href="/detail-\d{8}\.html">(.*?)</a>')
            name_items = re.findall(name_reg, i)

            for a, b in zip(name_items, url_items):
                url_name.append([a,b])
        else:
            pass

下面开始进行下载视频，并以视频内容作为标题进行命名：
（当然也可以用MD5加密，对视频得内容进行定长输出）

def download():
    # 异常
    for i in url_name:
        print(i[0], end='')
        print(i[1])
        try:
            urllib.request.urlretrieve(i[1], './视频/%s.gif' % (i[0]))

        except Exception as e:
            print(e)
            print("下载异常！！！")
            pass

在这里插入图片描述
下面是关于 MD5加密：

import hashlib

md5 = hashlib.md5()
md5.update('how to use md5 in python hashlib?')
print md5.hexdigest()
计算结果如下：

d26a53750bc40b38b65a520292f69306

对于中文格式得要进行 encode操作。

下面是小编修改后：

 urllib.request.urlretrieve(i[1], './视频/%s.gif' %
                                       (hashlib.md5(i[0].encode(encoding='UTF-8')).hexdigest()))

如图：
在这里插入图片描述

看上去效果不太好😅😅😅😅😅😅😅
感觉还是用中文命名方便

下面就是爬取得过程了：

在这里插入图片描述

大笨钟47

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
趣味学python（023）

百思不得其解——视频爬取今天，小编学习了关于百四不得其解视频得爬取，该网站并没有采取Ajax请求或者一些其他得关于请求参数加密得方法，所以是很好进行爬取得。网址如下：http://www.budejie.com/打开浏览器得开发者工具，查看网页源代码，再对相应得 html进行分析，分析网址所在。本次，小编采用得是正则表达式re,python中提供关于正则得入口。...
复制链接

扫一扫