Python3 + selenium & requests 爬取B站视频实例(上)

本文介绍了如何使用Python3结合selenium爬取B站视频,包括搜索关键字,获取视频URL并下载到本地的过程。文章通过分析B站页面结构,使用XPath定位元素,并展示了完整的selenium爬虫代码。
摘要由CSDN通过智能技术生成

前言:
本文使用了两种主流的爬虫方法爬取了同一个网站资源,一个是selenium,一个requests。
本篇将介绍selenium的方法,requests的方法下次再介绍,
另外将本文作为自己练手的一个记录,也顺便分享给刚学习python爬虫的同学们。

所用到的第三方插件库如下,请同学自行安装,不另做安装教学。

  • selenium
  • requests
  • you-get

Selenium

写完的脚本运行起来大概是这个效果,根据输入的关键字,比如papi酱,
程序将在B站下载所有与papi酱相关视频的到本地:
在这里插入图片描述

首先我们来梳理一下使用selenium爬取b站视频的思路,

  1. 想办法得到搜索后的页面
  2. 找到该页面所有视频的URL
  3. 将视频挨个下载到本地

1.<想办法得到搜索后的页面>

在对B站网页设计及框架元素做分析的时候发现不用登陆,也可以看视频,
而且在做搜索的时候是GET请求,
这代表我们可以直接在URL拼写欲搜索的关键字页数进行访问。
GET请求地址
第一步的需求明了了,我们直接敲代码,
欲搜索的关键字页数控制循环的页面,

# coding=utf-8
from selenium import webdriver
import time,os

search_name = input('您想要爬取的视频关键字是?\n(输入完毕请按回车):') #输入要爬取的关键字
driver = webdriver.Firefox() #使用火狐浏览器
pages = 51 #设定要爬取的总页数
for page in range(1,pages): #翻页循环从第1页开始

	#GET请求打开网址,两个变量,search_name是关键字,
  • 6
    点赞
  • 39
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值