python爬虫 附B站讲解学习视频链接

爬虫三步骤:

#第一步:拿到页面源代码
#第二步:通过xpath或json提取有效信息
#第三步:对数据进行保存
 

新版浏览器F12键,可以查看网页开发人员信息,进行分析。

页面源代码,有三种,一种是静态可以直接获取,一种是Ajax获取,一种需要登录获取。

不管是哪一种,都需要用到request库获取相应的网页代码信息。

静态网页一般可以使用get+xpath分析网页信息获得数据。

动态一般用get或post,需要在F12工具中找到  网络--XHR信息 ,返回数据是都为JSON格式。

分享代码静态获取,B站学习链接  https://www.bilibili.com/video/BV1nV41147J1  (暮光微晓破倾城

import requests
from lxml   import etree
import time


#网页链接
url="https://movie.douban.com/top250"


#网页表头
headers= {
    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.85 Safari/537.36"
    }

#返回网页信息
resp= requests.get(url,headers=headers).text


#print(resp)

#使用xpath对数据进行处理
html=etree.HTML(resp)
lis=html.xpath("/html/body/div[3]/div[1]/div/div[1]/ol/li")
for li in lis:
    title=li.xpath("./div/div[2]/div[1]/a/span[1]/text()")[0]
    href=li.xpath("./div/div[2]/div[1]/a/@href")[0]
    pf=li.xpath("./div/div[2]/div[2]/div/span[2]/text()")[0]
    year=li.xpath("./div/div[2]/div[2]/p[1]/text()[2]")[0].strip().split("/")[0]
    diqu=li.xpath("./div/div[2]/div[2]/p[1]/text()[2]")[0].strip().split("/")[1]
    time.sleep(0.5)
    print(title,pf,year,diqu,href)

    with open(r"dd.txt","a",encoding="utf-8") as f:
        f.write("{},{},{},{},{}".format(title,pf,diqu,year,href))
        f.write("\n")
        print("下载")

分享代码动态获取(get 方式),B站学习链接

from urllib.request import Request,urlopen
import requests
from lxml   import etree
import time
import json

#获取网页链接
url="https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit={}&page_start={}"

#网页表头
headers={
    "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"
    }

for i in range(3):
    newurl=url.format(i*20,(i+1)*20)
    print(newurl)
    
    #获取网页返回值
    req=requests.get(newurl,headers=headers).text
    #json数据
    data=json.loads(req)
    for s in data["subjects"]:
        print(s["title"])
        
    time.sleep(1)

部分连接地址中文部分【需要字符串切片】需要转码再合并url。代码如下

#网页链接
s_url=u"http://1*2.15.***.219:8028/ictedu/download.php?fname=./"


import urllib
st = u'download.php?fname=./随机事件的概率探究.zip'[21:]
print(st)
st = st.encode('GBK')
s = parse.quote(st)
print(s_url+s)

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python爬虫可以用于爬取B站视频数据。根据引用中提到的Python爬虫教学视频,我们可以通过学习这套课程来了解Python爬虫如何抓取数据的全过程。此外,引用中也提到了如何下载B站的指定视频。 关于Python爬虫爬取B站视频的方法,可以分为以下几个步骤: 1. 寻找合适的爬虫库:Python有很多优秀的爬虫库,比如Requests、BeautifulSoup、Scrapy等。你可以根据自己的需求选择合适的库。 2. 获取视频页面的URL:通过分析B站视频页面的URL结构,可以获取到视频页面的URL。可以使用爬虫库发送HTTP请求,获取视频页面的HTML源码。 3. 解析HTML源码:使用爬虫库解析HTML源码,可以获取视频的相关信息,比如视频标题、视频时长、视频评论等。 4. 下载视频:根据视频的URL,可以使用爬虫库下载视频文件。可以将视频保存到本地或者其他合适的位置。 在这个过程中,你可以参考引用提到的Python爬虫教学视频,以及引用中提到的下载B站视频的方法。 此外,如果你对Python爬虫有更深入的学习需求,你还可以参考引用提到的一本关于Python爬虫的书籍。这本书分为三篇,分别介绍了Python基础、Python框架和Python框架实战的内容,对于想要深入学习Python爬虫的同学来说是一本不可多得的参考书。 总结起来,要使用Python爬虫爬取B站视频,你可以通过学习Python爬虫教学视频、参考相关书籍以及查阅相关资料来了解爬虫的基本原理和方法,并根据需要选择合适的爬虫库进行开发。同时,你也可以参考引用中提到的下载B站视频的方法来实现下载指定视频的功能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值