环境介绍
为了让两位自认为阅漫无数的同学对自己的动漫观看质量有数据量化的评判,近日基于爬虫实现了对动漫评分的爬取。
###爬虫部分
import urllib
from urllib.parse import quote
import requests
import re
from bs4 import BeautifulSoup
#构造搜索请求,获取往返回的网页内容
#movie_name 电影名称
def find(movie_name):
# 读取用户输入的电影名,并转换为url编码
url_head = "https://bangumi.tv/subject_search/"+quote(movie_name.encode('utf-8')) #生成爬虫Url
# 发送请求拿到HTML内容
#cat = 2 是番组计划对动漫的分类
payload = {
'cat': '2'}
r = requests.get(url_head, params=payload)
r.encoding = 'utf-8'
# 用bs解析HTML内容
#这里可以获取所有的网页返回的内容
soup = BeautifulSoup(r.text, 'html.parser')
return get_score(soup,movie_name)
#对网页内容进行分析,获取相应数据
def get_score(soup,movie_name):
#find_all 是寻找所有符合的标签,返回list
rank_list = soup.find_all(class_ = 'fade')
name_list = soup.find_all(class_ =