BeautifulSoup爬虫应用之豆瓣电影TOP25爬取
BeautifulSoup介绍
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.
豆瓣电影
喜欢看电影的小伙伴一定都听说过豆瓣评分
那什么是豆瓣电影TOP250呢?
下面给出该榜单的介绍:豆瓣用户每天都在对“看过”的电影进行“很差”到“力荐”的评价,豆瓣根据每部影片看过的人数以及该影片所得的评价等综合数据,通过算法分析产生豆瓣电影 Top 250。
爬取内容
爬取内容包括电影名称、导演、主演、上映年份、制片国家/地区、评分、评论人数、引用/推荐语
爬取过程
导入模块
这里用到主要用到BeautifulSoup和pandas
import requests
from bs4 import BeautifulSoup
import pandas as pd
设置headers,用get请求方式,显示200则表示成功
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.0; WOW64; rv:24.0) Gecko/20100101 Firefox/23.0' }
r = requests.get("https://movie.douban.com/top250", headers=headers)
用beautifulsoup将网页解析成lxml
bs=BeautifulSoup(r.text,'lxml')
然后用find_all进行抓取相关数据
movie=[i.find('span').text for i in bs.find_all('div','hd')] #名称
short_comment=[i.find('span').text for i in bs.find_all