beautifulsoup爬虫应用之豆瓣电影top25爬取

最新推荐文章于 2024-07-26 17:36:26 发布

mister1

最新推荐文章于 2024-07-26 17:36:26 发布

阅读量1.2k

点赞数 2

分类专栏：笔记文章标签： python 爬虫

本文链接：https://blog.csdn.net/mister1/article/details/116172634

版权

BeautifulSoup爬虫应用之豆瓣电影TOP25爬取

BeautifulSoup介绍

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.

豆瓣电影

喜欢看电影的小伙伴一定都听说过豆瓣评分
那什么是豆瓣电影TOP250呢？
下面给出该榜单的介绍：豆瓣用户每天都在对“看过”的电影进行“很差”到“力荐”的评价，豆瓣根据每部影片看过的人数以及该影片所得的评价等综合数据，通过算法分析产生豆瓣电影 Top 250。

在这里插入图片描述

爬取内容

爬取内容包括电影名称、导演、主演、上映年份、制片国家/地区、评分、评论人数、引用/推荐语
在这里插入图片描述

爬取过程

导入模块

这里用到主要用到BeautifulSoup和pandas

import requests
from bs4 import BeautifulSoup
import pandas as pd

设置headers,用get请求方式，显示200则表示成功

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.0; WOW64; rv:24.0) Gecko/20100101 Firefox/23.0' }
r = requests.get("https://movie.douban.com/top250", headers=headers)

用beautifulsoup将网页解析成lxml

bs=BeautifulSoup(r.text,'lxml')

然后用find_all进行抓取相关数据

movie=[i.find('span').text for i in bs.find_all('div','hd')]  #名称
short_comment=[i.find('span').text for i in bs.find_all

最低0.47元/天解锁文章

mister1

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
3
评论
beautifulsoup爬虫应用之豆瓣电影top25爬取

BeautifulSoup爬虫应用之豆瓣电影TOP25爬取BeautifulSoup介绍Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.豆瓣电影喜欢看电影的小伙伴一定都听说过豆瓣评分那什么是豆瓣电影TOP250呢？下面给出该榜单的介绍：豆瓣用户每天都在对“看过”的电影进行“很差”到“力荐”的评价，豆瓣根据每部影片看过的人数以及
复制链接

扫一扫