2024年Python最新大家沉迷短视频无法自拔?Python爬虫进阶,带你玩转短视频(1)

工具使用


开发环境:win10、python3.7

开发工具:pycharm、Chrome

工具包:requests、xpath、base64

重点学习内容


爬虫采集数据的解析过程

js代码调试技巧

js逆向解析代码

Python代码的转换

项目思路解析


进入到网站的首页

挑选你感兴趣的分类

根据首页地址获取到进入详情页面的超链接的跳转地址

在这里插入图片描述

找到对应加密的视频播放地址数据

在这里插入图片描述

这个数据是静态的网页数据,通过js代码进行解码的

找到对应的解析代码

先找到视频的播放地址

找到解析视频地址的加密js文件

点击播放的时候会触发文件

在这里插入图片描述

大致能看出来这个是base64加密之后的数据

在对应的js文件里搜索关键字

找到js的加密方式

在这里插入图片描述

js函数的一些函数的用法

eplace()方法用于在字符串中用一些字符替换另一些字符

parseInt 数据转换成对应的整型

base64.atob 对base64编码过的字符串进行解码

substring 方法可在字符串中抽取从 start 下标开始的指定数目的字符

在这里插入图片描述

将js代码转换成Python代码

import base64

def decode(data):

def getHex(a):

return {

‘str’: a[4:],

‘hex’: ‘’.join(list(a[:4])[::-1]),

}

def getDec(a):

b = str(int(a, 16))

return {

‘pre’: list(b[:2]),

‘tail’: list(b[2:]),

}

def substr(a, b):

c = a[0: int(b[0])]

d = a[int(b[0]): int(b[0]) + int(b[1])]

return c + a[int(b[0]):].replace(d, “”)

def getPos(a, b):

b[0] = len(a) - int(b[0]) - int(b[1])

return b

b = getHex(data)

c = getDec(b[‘hex’])

d = substr(b[‘str’], c[‘pre’])

return base64.b64decode(substr(d, getPos(d, c[‘tail’])))

print(decode(“e121Ly9tBrI84RdnZpZGVvMTAubWVpdHVkYXRhLmNvbS82MGJjZDcwNTE3NGZieXBueG5udnRwMTA5N19IMjY0XzFfNWY3YThmM2U0MTEwNy5tc2JVjAu3EDQ=”))

得出最终视频播放地址

在这里插入图片描述

在这里插入图片描述

简易源码分享

import requests

from lxml import etree

import base64

def decode_mp4(data):

def getHex(a):

return {

‘str’: a[4:],

做了那么多年开发,自学了很多门编程语言,我很明白学习资源对于学一门新语言的重要性,这些年也收藏了不少的Python干货,对我来说这些东西确实已经用不到了,但对于准备自学Python的人来说,或许它就是一个宝藏,可以给你省去很多的时间和精力。

别在网上瞎学了,我最近也做了一些资源的更新,只要你是我的粉丝,这期福利你都可拿走。

我先来介绍一下这些东西怎么用,文末抱走。


(1)Python所有方向的学习路线(新版)

这是我花了几天的时间去把Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

最近我才对这些路线做了一下新的更新,知识体系更全面了。

在这里插入图片描述

(2)Python学习视频

包含了Python入门、爬虫、数据分析和web开发的学习视频,总共100多个,虽然没有那么全面,但是对于入门来说是没问题的,学完这些之后,你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。

在这里插入图片描述

(3)100多个练手项目

我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了,只是里面的项目比较多,水平也是参差不齐,大家可以挑自己能做的项目去练练。

在这里插入图片描述

(4)200多本电子书

这些年我也收藏了很多电子书,大概200多本,有时候带实体书不方便的话,我就会去打开电子书看看,书籍可不一定比视频教程差,尤其是权威的技术书籍。

基本上主流的和经典的都有,这里我就不放图了,版权问题,个人看看是没有问题的。

(5)Python知识点汇总

知识点汇总有点像学习路线,但与学习路线不同的点就在于,知识点汇总更为细致,里面包含了对具体知识点的简单说明,而我们的学习路线则更为抽象和简单,只是为了方便大家只是某个领域你应该学习哪些技术栈。

在这里插入图片描述

(6)其他资料

还有其他的一些东西,比如说我自己出的Python入门图文类教程,没有电脑的时候用手机也可以学习知识,学会了理论之后再去敲代码实践验证,还有Python中文版的库资料、MySQL和HTML标签大全等等,这些都是可以送给粉丝们的东西。

在这里插入图片描述

这些都不是什么非常值钱的东西,但对于没有资源或者资源不是很好的学习者来说确实很不错,你要是用得到的话都可以直接抱走,关注过我的人都知道,这些都是可以拿到的。

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里无偿获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

  • 7
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值