运行环境:python 3.7.3
所需库:
- requests
- xlwt
- bs4
- time
- multiprocessing
说明:b站有反爬机制,只能爬取50页视频的信息
import xlwt
import requests
from bs4 import BeautifulSoup
import time
import os
from multiprocessing import Pool
j=1#定义全局变量,从第1行写入数据
def transform(string):#统一单位将单位万转为普通单位
if string[-1]=='万':
string1=string.replace('万','')
return str(float(string1)*10000)
else:
return string
def singleweb(url):#爬取单页内容
global j
r=requests.get(url,headers=head)
r.encoding=r.apparent_encoding
r.raise_for_status()
soup=BeautifulSoup(r.text,'html.parser')
soups1=soup.find_all(