教你用 Python 看遍女神视界,美女咋越看越精神呢~(内含完整源码)

19 篇文章 4 订阅

前言

嗨喽,大家好!这里是魔王

[课题]:

教你用 Python 看遍女神视界

[知识点]:

海量视频数据一键保存
html标签数据解析方法
re解析数据方法

请添加图片描述

[环境介绍]:

python  3.8
pycharm 2021.2
requests >>> pip install requests
parsel   >>> pip install parsel

+python安装包 安装教程视频
+pycharm 社区版 专业版 及 激活码免费

一. 分析网站(思路分析)

我们通过在网页链接前面+ view-source:https:.....
就可以查看到网页源代码, 我们在网页源代码当中可以找到 视频链接地址

二. 代码实现

1. 发送网络请求
2. 获取数据 网页源代码
3. 筛选数据 视频详情页地址
4. 发送网络请求
5. 获取数据 网页源代码
6. 筛选数据 视频播放地址
7. 访问视频播放地址
8. 获取视频二进制数据
9. 保存 视频数据

在这里插入图片描述在这里插入图片描述在这里插入图片描述

导入模块

import requests     # 发送网络请求
import re           # 正则模块
import parsel       # 解析数据模块

看看谁没有安装好模块请添加图片描述

1. 发送网络请求

url_1 = 'https://www.520mmtv.com/tag/xg.html'

response_1 = requests.get(url_1)

2. 获取数据 网页源代码

data_html_1 = response_1.text

3. 筛选数据 视频详情页地址

selector = parsel.Selector(data_html_1)
info_url_list = selector.css('.meta-title::attr(href)').getall()
title_url_list = selector.css('.meta-title::text').getall()
new_title_list = [i for i in title_url_list if i != ' ']
# zip: 我们需要把视频链接 标题一起进行循环
for zip_data in zip(info_url_list, new_title_list):
    url = zip_data[0]
    # 1. 发送网络请求
    response = requests.get(url=url)
    # <Response [200]>: 发送请求成功响应
    # 2. 获取数据 网页源代码
    data_html = response.text
    # 3. 筛选数据 视频播放地址
    # 第一个参数匹配规则 第二个我们要在哪里匹配
    video_url = re.findall('url: "(.*?)",', data_html)[0]
    print(video_url)
    # 4. 访问视频播放地址
    # 5. 获取视频/音频/图片 二进制数据
    video_data = requests.get(video_url).content
    title = zip_data[1]
    # 6. 保存 视频数据
    with open(f'video\\{title}.mp4', mode='wb') as f:
        f.write(video_data)
    print(title, '爬取成功!!!')

好了,我的这篇文章写到这里就结束啦!

有更多建议或问题可以评论区或私信我哦!一起加油努力叭(ง •_•)ง

喜欢就关注一下博主,或点赞收藏评论一下我的文章叭!!!

  • 10
    点赞
  • 84
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
介绍 美图网站千千万,美图自己说了算!本码由@香谢枫林开发,首页图片做了浏览器窗口自适应,最大化占满PC浏览器和移动浏览器的窗口,并且防止出现滚动条。 码截图 功能介绍 首页图片设置了4个点击功能区,分别是:上一张、下一张、全部随机、套图集随机(为了丰富移动端操作) 搜索功能注释隐藏了,想用的同学自己打开发开者模式解除注释即可 随机按钮:仅在右上角下拉菜单选中的图集中随机 随机All按钮:全部图片中随机 自动随机:仅在右上角下拉菜单选中的图集中自动随机(间隔1.5s) 自动随机All:全部图片中自动随机(间隔1.5s) 自动浏览:自动下一张(间隔1.5s) 套图1:点击跳转新窗口,查看套图所有图片(观赏模式一) 套图2:点击跳转新窗口,查看套图所有图片(观赏模式二) 索引:点击跳转新窗口,查看套图集 收藏:收藏图片,点击”Count“也能收藏 收藏列表:点击跳转新窗口,观赏收藏图片 #注:键盘任意键或者点击图片即可解除自动浏览状态; 按键介绍 @上一张:<–(左方向键) @下一张:–>(右方向键) @全部图集随机:(上方向键 或 alt键) @所选图集随机:(下方向键或shift键) @跳转套图第一张:(空格键) @收藏:(?问号键) @浏览整套图片(模式1):({左大括号) @浏览整套图片(模式2):(}右大括号) @关闭标签页(针对跳转的页面):(\顿号) @自动浏览(随机全部图集1.5s间隔):(”冒号键) @自动浏览(随机所选图集1.5s间隔):(;分号键) @回看随机历史:(《左书名号键) @自动浏览(下一张1.5s间隔):(》右书名号键) #注:任意键结束自动浏览状态;”{}”这两个按键在套图浏览页面可以切换浏览模式 使用说明 第一步:本地建库,把数据库下载到本地(线上数据库连接参数在global.php文件里)也可以自己创建数据库,需要3个基础表,分别是pc_dic_lanvshen、pc_dic_toxic、po_toxic(在数据库文件夹下) 第二步:修改数据库配置,global.php文件的database配置,设置成连接自己本地的数据库;到此,启动网站,你可以愉快的赏图了! 1.想改按键怎么办?在js/index.js文件中,有具体的按键对应功能说明,想改按键,只需要修改对应的键值即可(keyCode键值问度娘吧) 2.搜过功能有木有?在index.php文件中,取消注释id为tb和tj的两行代码即可显示搜索功能 说明 我做了3个美图网站的数据爬取功能,分别对应3个文件:lanvshen.py,lanvshen_qtw.py,lanvshen_mtll.py(顶部有注释对应哪个网站) 第一步:修改数据库配置文件conf/mysql_db.py,修改数据库连接,改成自己本地的数据库; 第二步:找到自己想要爬取的页面,修改主函数信息即可,只需要修改4个参数,如下图所示 注:Python记得下载好对应的插件(requests,re,time,random,BeautifulSoup)

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值