python爬虫抖音音浪_爬虫抖音_抖音淘宝联盟入驻条件

最新推荐文章于 2024-06-07 11:38:12 发布

weixin_39659837

最新推荐文章于 2024-06-07 11:38:12 发布

阅读量479

点赞数

文章标签： python爬虫抖音音浪

如果你刚开始操作抖音，运营抖音还不懂平台的操作技巧，可以加我的微信：422591055 带你玩转抖音自媒体平台，我还联合了抖音运营的几位大佬，每日分享免费的抖音运营的实操讲解，还可以免费获取到抖音运营资料一份。

[爬虫抖音]——python学习——爬虫(抖音)

爬虫仅限于知识学习，本代码不得用于任何商业活动侵权，如有不适，请联系博主进行修改或者删除。

今天总结的第三篇，这些个代码是模仿着写出来的，这儿我着重写我觉有用的东西了，一上午过去了，还只弄完三篇，时间好紧张啊。

访问的是的抖音，找到其url，并进行访问

首先摆出源码

然后着一进行分析

访问的网址是：用访问者的形式进行访问，避免反扒，这是最初级的方式，高级一点的就是再加上cookie，虽然不知道有啥用，感觉加上以后，出错的情况小很多了，解码这儿用的是utf-8

因为抖音具有一种反扒措施，它这个访问结果不一定会有，需要反复访问，因此我写了个while循环，直到访问到结果

将这一条内容放到bejson中进行解析(bejson可以百度找到)

然后再依据内容，找到我们需要的下载地址，视频的下载，需要使用其视频链接，以二进制、流的形式进行导出

存在一个未解决的问题，按理来说这儿是可以按照视频名字来命名的，但是程序执行到第四个时，会报错，我将名字换成了数字之后(也就是x)，就能正常爬取了，不知道这是啥反扒措施，有大佬能解决的话，欢迎评论区留言。

[爬虫抖音]——使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium)

#_*_coding:utf-8_*_

importrequests

importsys

headers={"User-Agent":"Mozilla/5.0(WindowsNT6.1;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/42.0.2311.90Safari/537.36"}

#去重方法

defdistinct_data():

#读取txt中文档的url列表

datalist_blank=[]——

pathtxt='H:/Request'

withopen(pathtxt)asf:

f_data_list=f.readlines()#d得到的是一个list类型

forainf_data_list:

datalist_blank.append(a.strip())#去掉\nstrip去掉头尾默认空格或换行符

data_dict={}

fordataindatalist_blank:

#url中以/为切分,在以m为切分##把m后面的值放进字典key的位置，利用字典特性去重

ifint(data.split('/').index('m'))==4:#此处为v6开头的url

#print(data,44,data.split('/')[5]——)

data_key1=data.split("/")[5]——

data_dict[data_key1]——=data

elifint(data.split('/').index('m'))==6:#此处为v1或者v3或者v9开头的url

data_key2=data.split("/")[7]——

data_dict[data_key2]——=data

#print(len(data_dict),data_dict)

data_new=[]——

forx,yindata_dict.items():

data_new.append(y)

returndata_new

defresponsedouyin():

data_url=distinct_data()

#使用request获取视频url的内容

#stream=True作用是推迟下载响应体直到访问Response.content属性

#将视频写入文件夹

num=1

forurlindata_url:

res=requests.get(url,stream=True,headers=headers)

#res=requests.get(url=url,stream=True,headers=headers)

#定义视频存放的路径

pathinfo='H:/douyin-video/%d.mp4'%num#%d用于整数输出%s用于字符串输出

#实现下载进度条显示，这一步需要得到总视频大小

total_size=int(res.headers['Content-Length']——)

#设置流的起始值为0

temp_size=0

ifres.status_code==200:

withopen(pathinfo,'wb')asfile:

#file.write(res.content)

#print(pathinfo+'下载完成啦啦啦啦啦')

num+=1

#当流下载时，下面是优先推荐的获取内容方式，iter_content()函数就是得到文件的内容，指定chunk_size=1024，大小可以自己设置哟，设置的意思就是下载一点流写一点流到磁盘中

forchunkinres.iter_content(chunk_size=1024):

ifchunk:

temp_size+=len(chunk)

file.write(chunk)

file.flush()#刷新缓存

#############下载进度条部分start###############

done=int(50*temp_size/total_size)

#print('百分比:',done)

sys.stdout.write("\r[%s%s]——%d%%"%('█'*done,''*(50-done),100*temp_size/total_size)+"下载信息："+pathinfo+"下载完成啦啦啦啦啦")

sys.stdout.flush()#刷新缓存

#############下载进度条部分end###############

print('\n')#每一条打印在屏幕上换行输出

if__name__=='__main__':

responsedouyin()

[爬虫抖音]——爬虫-抖音小姐姐个人信息

背景：

因为业务需要，爬取抖音小姐姐的信息。身为不玩抖音的宅男，也没有办法。网上很多下载抖音视频的代码。我不是为了视频而是为了练习自己的爬虫技能。知道抖音的数字都是用字体做了处理，正好早些时候爬了起点中文网的(也是字体反爬，加强自己的技能，那就从抖音开始，咱不能眼高手低是吧。

1.开始分析:

不关注抖音不知道有哪些红人，为此百度搜索，找到个网站，做抖音的，虽然信息也都有了，但是我们程序员还是想自己实现是不是，这个网站想看谁的信息还得登录注册。我就是为了获取抖音的url的。那咱就可以了，从莉哥o3o开始。

打开她的抖音，挺火啊。身为做爬虫的，第一下想到的就是看看源码。

网页源码：

因为已经知道数字做了处理。

那就分析吧，源码里面并没有woff或者ttf字体的链接，说明了很难找打动态加载字体库，那咋办呢。我在GitHub找到了一个，对应关系，我打开github的代码，我顿时疯了，是用js写的爬虫也是上面排行榜网站的爬虫工具用了别人的东西给个链接github(这个仓库有很多的爬虫代码，是chrome扩展形式的，我没有安装成功：

直觉告诉我，我需要自己去找关系了，但是从中我也获取了信息，就是每个数字对应三个。心理就谱了。找呗，一个网页找，直到找到3*10?个关系。找的过程苦逼就不详细说了。

那就开始撸代码吧：

为了我的github我把代码放在github了，这里就不贴代码了github(

代码本来是在python3.5环境写的，然后运行在python2.7环境下，都是编码的问题，为此添加了u""加个u，可以在python2.7运行了。那就尴尬了，没有在python3.5再次运行，应该不会出现问题。

猫眼的票房也是字体反爬，下步就是它了。阴险.jpg

如果你刚开始操作抖音，如果你运营抖音还不懂的平台的操作技巧，可以加我的微信：422591055 带你玩转抖音自媒体平台，我还联合了抖音运营的几位大佬，每日分享免费的抖音运营的实操讲解，还可以免费获取抖音运营的学习资料一份。

全球十大电音神曲纯音乐为什么抖音官网上传不了视频抖音怎么用抖音号登录成版人抖音app下载网站

您可能感兴趣的文章

weixin_39659837

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python爬虫抖音音浪_爬虫抖音_抖音淘宝联盟入驻条件

如果你刚开始操作抖音，运营抖音还不懂平台的操作技巧，可以加我的微信：422591055 带你玩转抖音自媒体平台，我还联合了抖音运营的几位大佬，每日分享免费的抖音运营的实操讲解，还可以免费获取到抖音运营资料一份。[爬虫抖音]——python学习——爬虫(抖音)爬虫仅限于知识学习，本代码不得用于任何商业活动侵权，如有不适，请联系博主进行修改或者删除。今天总结的第三篇，这些个代码是模仿着写出来的，这儿我...
复制链接

扫一扫