python爬虫基础应用----爬取无反爬视频网站

本文介绍了Python爬虫的基础应用,以爬取无反爬措施的校花网视频为例,详细讲解了如何使用requests库获取网页,解析页面结构,提取视频链接,并最终保存视频文件。爬虫程序涉及的主要模块包括requests、xpath和BeautifulSoup4。
摘要由CSDN通过智能技术生成

一.爬虫简单介绍

  爬虫是什么?

  爬虫是首先使用模拟浏览器访问网站获取数据,然后通过解析过滤获得有价值的信息,最后保存到到自己库中的程序.

  爬虫程序包括哪些模块?

  python中的爬虫程序主要包括,requests请求库,seleium请求库,xpath和BeautSoup4解析库,

  爬取校花网需要使用到哪些模块?

  校花网结构简单,而且没有任何防爬手段,所在只需要使用requests就可以完成了=.=.

二.具体操作

  1.获得网页

  网站地址:http://www.xiaohuar.com/

  我要爬取的视频网页主页为http://www.xiaohuar.com/list-3-0.html

  下一页为http://www.xiaohuar.com/list-3-1.html

  总共有五页所以,拼接生成五页主页.

url = 'http://www.xiaohuar.com/list-3-{}.html'
for line in range(5):
    index_url = url.format(line)

  2.主页解析

  主页中跳转到详情页的连接在这里

#使用正则可以获得详情页网址.

re.findall('<div class="items".*?<a href="(.*?)"',index_res,re.S)

 


  3.详情页解析

  详情页中的视频连接在这个位置 

  

#正则匹配获得视频的网址
video_url = re.findall('<source src&
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值