python批量爬取图片_【原创开源】快手爬虫，根据id批量爬取用户的所有图集和视频...

最新推荐文章于 2024-01-18 19:27:15 发布

weixin_39542936

最新推荐文章于 2024-01-18 19:27:15 发布

阅读量1k

点赞数

文章标签： python批量爬取图片

更新日志

所有版本更新日志会记录在这里

v0.4.0(2020-03-23)

修复id转eid的一些bug

从该版本开始，爬取视频均为无水印

v0.3.0(2020-03-10)

修复一些因为用户昵称中存在windows下文件（夹）名非法字符导致os无法写入读取的bug

简单看了一点python面向对象，将核心功能提取为crawler类，降低耦合

基于crawler类，分出两个文件，一个用于直接在python环境下跑代码，另一个则用于打包好exe一键运行

提供exe版本

v0.2.0(2020-02-26)

增加对数字id自动查询转换为eid的支持

v0.1.1 (2020-02-25)

修复caption项文字保存为文件名的各种问题

增加对workType 'ksong'、'single'的支持

增加对于爬取过程中请求失败的解决方法

增加CHANGELOG.md

写在前面

代码功能如题，根据快手用户的id来爬取用户所有公开作品，包括图集和视频。

原理：其实就是利用基于chromium内核的浏览器自带的devtools对所有请求进行排查找出包含作品链接的请求，然后用代码模拟请求去获得数据，再根据url下载作品保存就行了，包括一些网站的自动注册登录、操作都可以模拟。这个其实应该算是写过爬虫的同学们都知道，我自己其实不怎么用过python，也没写过什么复杂的python项目，说的不对的还请多多包涵。如果有同学还是想让我讲一下怎么爬的，我考虑再做一期详细的，其实代码应该还是可以看得懂的2333

核心代码

废话不多说，上核心代码

def __crawl_user(self, uid):

if uid.isdigit():

uid = self.__switch_id(uid)

payload = {"operationName": "privateFeedsQuery",

"variables": {"principalId": uid, "pcursor": "", "count": 999},

"query": "query privateFeedsQuery($principalId: String, $pcursor: String, $count: Int) {\n privateFeeds(principalId: $principalId, pcursor: $pcursor, count: $count) {\n pcursor\n list {\n id\n thumbnailUrl\n poster\n workType\n type\n useVideoPlayer\n imgUrls\n imgSizes\n magicFace\n musicName\n caption\n location\n liked\n onlyFollowerCanComment\n relativeHeight\n timestamp\n width\n height\n counts {\n displayView\n displayLike\n displayComment\n __typename\n }\n user {\n id\n eid\n name\n avatar\n __typename\n }\n expTag\n __typename\n }\n __typename\n }\n}\n"}

res = requests.post(self.__data_url, headers=self.__headers, json=payload)

works = json.loads(res.content.decode(encoding='utf-8', errors='strict'))['data']['privateFeeds']['list']

if not os.path.exists("../data"):

os.makedirs("../data")

# 这两行代码将response写入json供分析

# with open("data/" + uid + ".json", "w") as fp:

# fp.write(json.dumps(works, indent=2))

# 防止该用户在直播，第一个作品默认为直播，导致获取信息为NoneType

if works[0]['id'] is None:

works.pop(0)

name = re.sub(r'[\\/:*?"<>|\r\n]+', "", works[0]['user']['name'])

dir = "data/" + name + "(" + uid + ")/"

# print(len(works))

if not os.path.exists(dir):

os.makedirs(dir)

# if not os.path.exists(dir + ".list"):

# print("")

print("开始爬取用户 " + name + "，保存在目录 " + dir)

print(" 共有" + str(len(works)) + "个作品")

for j in range(len(works)):

self.__crawl_work(uid, dir, works[j], j + 1)

time.sleep(1)

print("用户 " + name + "爬取完成!")

print()

time.sleep(1)

'''

快手分为五种类型的作品，在作品里面表现为workType属性

其中两种图集: vertical和multiple，意味着拼接长图和多图，所有图片的链接在imgUrls里

一种单张图片: single 图片链接也在imgUrls里

K歌: ksong 图片链接一样，不考虑爬取音频...

视频: video 需要解析html获得视频链接

'''

def __crawl_work(self, uid, dir, work, wdx):

w_type = work['workType']

w_caption = re.sub(r"\s+", " ", work['caption'])

w_name = re.sub(r'[\/:*?"<>|\r\n]+', "", w_caption)[0:24]

w_time = time.strftime('%Y-%m-%d', time.localtime(work['timestamp'] / 1000))

if w_type == 'vertical' or w_type == 'multiple' or w_type == "single" or w_type == 'ksong':

w_urls = work['imgUrls']

l = len(w_urls)

print(" " + str(wdx) + ")图集作品：" + w_caption + "，" + "共有" + str(l) + "张图片")

for i in range(l):

p_name = w_time + "_" + w_name + "_" + str(i + 1) + ".jpg"

pic = dir + p_name

if not os.path.exists(pic):

r = requests.get(w_urls[i])

r.raise_for_status()

with open(pic, "wb") as f:

f.write(r.content)

print(" " + str(i + 1) + "/" + str(l) + " 图片 " + p_name + " 下载成功 √")

else:

print(" " + str(i + 1) + "/" + str(l) + " 图片 " + p_name + " 已存在 √")

elif w_type == 'video':

w_url = self.__work_url + work['id']

res = requests.get(w_url, headers=self.__headers_mobile,

params={"fid": 1841409882, "cc": "share_copylink", "shareId": "143108986354"})

html = res.text

waitreplace = work['id'] + '".*?"srcNoMark":"(.*?)"'

v_url = re.findall(waitreplace, html)

# pattern = re.compile(r"playUrl", re.MULTILINE | re.DOTALL)

# script = soup.find("script", text=pattern)

# s = pattern.search(script.text).string

# v_url = s.split('playUrl":"')[1].split('.mp4')[0].encode('utf-8').decode('unicode-escape') + '.mp4'

try:

print(" " + str(wdx) + ")视频作品：" + w_caption)

except:

print(" 这里似乎有点小错误，已跳过")

v_name = w_time + "_" + w_name + ".mp4"

video = dir + v_name

if v_url:

if not os.path.exists(video):

r = requests.get(v_url[0])

r.raise_for_status()

with open(video, "wb") as f:

f.write(r.content)

print(" 视频 " + v_name + " 下载成功 √")

else:

print(" 视频 " + v_name + " 已存在 √")

else:

print("未找到视频")

else:

print("错误的类型")

payload就是post参数，这个是在devtools的request请求底下可以找到的

其实就是解析json，然后里面有图片的url和视频的id，我注释掉的两行代码可以保存完整的json的，你可以去掉注释然后看分析保存的json

剩下的看源码吧，不难理解的

既然是编程语言区嘛，主要还是代码，https://github.com/oGsLP/kuaishou-crawler ，链接查看源码，这是编程语言区，不是工具软件区，我只是提供代码供大家学习，不是只让你用这个爬视频图片的。既然在编程语言区，相信大家多多少少还是会一点编程的，或者说这样的代码学习成本不是很大，不希望大家是伸手党，自己折腾出来的才是经验。

（ps：从v0.3版本开始有打包好的exe提供了 >_>）

至于什么评分热心值和毕看着给吧23333，第一次发帖希望能帮到大家就好，如果代码真的帮到你了，或者用起来很舒服，可以github上给一波star什么的 link 各位看心情看心情

具体的使用说明，直接抄我github上的readme的原文了。。

kuaishou-crawler

As you can see, a crawler for kuaishou pictures and videos

Latest

Version 0.4.0 (2020-03-23)

现在已经提供exe版本一键执行查看 | 或者查看如何运行代码查看

Python 3.7.3

requests

json

BeautifulSoup