b站爬取视频信息,并以excel存储信息

本文介绍了如何使用Python 3.7.3进行网络爬虫,目标是抓取B站上的视频信息。为了应对B站的反爬机制,作者限制了爬取范围为50页。主要涉及的库包括requests、xlwt、bs4和time,以及multiprocessing用于提高爬取效率。最后,爬取的数据以Excel表格形式保存。
摘要由CSDN通过智能技术生成

运行环境:python 3.7.3
所需库:

  1. requests
  2. xlwt
  3. bs4
  4. time
  5. multiprocessing

说明:b站有反爬机制,只能爬取50页视频的信息

import xlwt
import requests
from bs4 import BeautifulSoup
import time
import os
from multiprocessing import Pool
j=1#定义全局变量,从第1行写入数据

def transform(string):#统一单位将单位万转为普通单位
    if string[-1]=='万':
        string1=string.replace('万','')
        return str(float(string1)*10000)
    else:
        return string

def singleweb(url):#爬取单页内容
    global j
    r=requests.get(url,headers=head)
    r.encoding=r.apparent_encoding
    r.raise_for_status()
    soup=BeautifulSoup(r.text,'html.parser')
    soups1=soup.find_all(
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值