b站爬取视频信息,并以excel存储信息

最新推荐文章于 2023-12-20 09:20:42 发布

A路人--

最新推荐文章于 2023-12-20 09:20:42 发布

阅读量2.8k

点赞数 2

文章标签：爬虫 python b站

本文链接：https://blog.csdn.net/qq_45097959/article/details/97304964

版权

本文介绍了如何使用Python 3.7.3进行网络爬虫，目标是抓取B站上的视频信息。为了应对B站的反爬机制，作者限制了爬取范围为50页。主要涉及的库包括requests、xlwt、bs4和time，以及multiprocessing用于提高爬取效率。最后，爬取的数据以Excel表格形式保存。

摘要由CSDN通过智能技术生成

运行环境：python 3.7.3
所需库：

requests
xlwt
bs4
time
multiprocessing

说明：b站有反爬机制,只能爬取50页视频的信息

import xlwt
import requests
from bs4 import BeautifulSoup
import time
import os
from multiprocessing import Pool
j=1#定义全局变量,从第1行写入数据

def transform(string):#统一单位将单位万转为普通单位
    if string[-1]=='万':
        string1=string.replace('万','')
        return str(float(string1)*10000)
    else:
        return string

def singleweb(url):#爬取单页内容
    global j
    r=requests.get(url,headers=head)
    r.encoding=r.apparent_encoding
    r.raise_for_status()
    soup=BeautifulSoup(r.text,'html.parser')
    soups1=soup.find_all(