python爬视频网站数据_python爬虫基础应用----爬取无反爬视频网站

最新推荐文章于 2024-07-23 22:17:33 发布

weixin_39904612

最新推荐文章于 2024-07-23 22:17:33 发布

阅读量281

点赞数

文章标签： python爬视频网站数据

一.爬虫简单介绍

爬虫是什么?

爬虫是首先使用模拟浏览器访问网站获取数据,然后通过解析过滤获得有价值的信息,最后保存到到自己库中的程序.

爬虫程序包括哪些模块?

python中的爬虫程序主要包括,requests请求库,seleium请求库,xpath和BeautSoup4解析库,

爬取校花网需要使用到哪些模块?

校花网结构简单,而且没有任何防爬手段,所在只需要使用requests就可以完成了=.=.

二.具体操作

1.获得网页

网站地址:http://www.xiaohuar.com/

我要爬取的视频网页主页为http://www.xiaohuar.com/list-3-0.html

下一页为http://www.xiaohuar.com/list-3-1.html

总共有五页所以,拼接生成五页主页.

url = 'http://www.xiaohuar.com/list-3-{}.html'

for line in range(5):

index_url= url.format(line)

2.主页解析

主页中跳转到详情页的连接在这里

#使用正则可以获得详情页网址.

re.findall('

3.详情页解析

详情页中的视频连接在这个位置

#正则匹配获得视频的网址

video_url = re.findall('',detail_page,re.S)#顺便获得视频的名字

video_name = re.findall('

(.*?)

',detail_page,re.S)

4.保存视频

将上获得的网址与视频名传入函数,打开网址将内容保存到video中 "视频名字".mp4的文件中,

defsave_video(video_dic):try:

video_url=video_dic.get('url')

video_name=video_dic.get('name')

video=requests.get(video_url)

with open(r'video/%s.mp4'%video_name,'wb') as f:

f.write(video.content)

f.flush()exceptException:pass

5.全部执行代码

importrequestsimportreimportuuid#一.获取网页

url='http://www.xiaohuar.com/'

defget_page(url):

index_res=requests.get(url)returnindex_res.text#二.解析网站#解析主页

defparse_index(index_res):

detail_url_list= re.findall('

defparse_detail(detail_page):

video_url= re.findall('',detail_page,re.S)

video_name= re.findall('

(.*?)

',detail_page,re.S)print(video_url)print(video_name)ifvideo_url:

video_url=video_url[0]ifvideo_name:

video_name=video_name[0]return {'url': video_url, 'name': video_name}else:

video_name=uuid.uuid4()return {'url':video_url,'name':video_name}#三.保存视频

defsave_video(video_dic):try:

video_url=video_dic.get('url')

video_name=video_dic.get('name')

video=requests.get(video_url)

with open(r'video/%s.mp4'%video_name,'wb') as f:

f.write(video.content)

f.flush()exceptException:pass

if __name__=='__main__':

url= 'http://www.xiaohuar.com/list-3-{}.html'

for line in range(5):

index_url=url.format(line)print(index_url)#获得主页文本

index_res =get_page(index_url)#解析主页,获得详情页网址列表

detail_url_list =parse_index(index_res)print(detail_url_list)for detail_url indetail_url_list:

detail_page=get_page(detail_url)

video_dic=parse_detail(detail_page)

save_video(video_dic)

weixin_39904612

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬视频网站数据_python爬虫基础应用----爬取无反爬视频网站

一.爬虫简单介绍爬虫是什么?爬虫是首先使用模拟浏览器访问网站获取数据,然后通过解析过滤获得有价值的信息,最后保存到到自己库中的程序.爬虫程序包括哪些模块?python中的爬虫程序主要包括,requests请求库,seleium请求库,xpath和BeautSoup4解析库,爬取校花网需要使用到哪些模块?校花网结构简单,而且没有任何防爬手段,所在只需要使用requests就可以完成了=.=.二.具体...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。