python 爬虫豆瓣top250-附源码-详细注释

qq_29531077

于 2024-04-02 16:48:00 发布

阅读量109

点赞数 3

文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/qq_29531077/article/details/137276067

版权

import requests
from bs4 import BeautifulSoup #导入BeautifulSoup库
#由于豆瓣有反爬虫策略，headers用于伪装成浏览器访问，
headers = {
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36 Edg/119.0.0.0"
}
#观察豆瓣top250每一页的网页，发现每次递增25，于是每次循环步长25，用来更新链接
for start in range(0,250,25):
    response = requests.get(f"https://movie.douban.com/top250?start={start}",headers=headers) #更新链接
    html = response.text #获取html文件，传递给html变量
    suop = BeautifulSoup(html,"html.parser") #调用BeautifulSoup，用html.parser来解析html
    titles = suop.findAll("span", attrs={"class": "title"}) #过滤，找到所有的span标签，class=title的信息
    for tit in titles: #遍历titles给tit
       tit_string = tit.string #只将tit的字符串提取出来赋值给tit——string
       if "/" not in tit_string: #如果不带有“/”，就输出
           print(tit_string)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qq_29531077

关注关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 爬虫豆瓣top250-附源码-详细注释

【代码】python 爬虫豆瓣top250-附源码-详细注释。
复制链接

扫一扫

使用scrapy，爬取douban图书top250信息

weixin_51722593的博客

05-07

931

1. 使用scrapy，爬取douban图书top250信息：https://book.douban.com/top2502. 将爬取到的信息写入到mysql数据中3. 使用flask，将数据读取处理，用表格形式展示到页面上，包括：书名、评分、评价数、作者、出版社、出版时间、定价、该书douban链接4. 使用Bootstrap，把页面整好看点。

Python爬虫实例-爬取豆瓣Top250-保存为表格

11-06

Python爬虫实例-爬取豆瓣Top250-保存为表格

参与评论您还未登录，请先登录后发表或查看评论

python爬虫简单源码，附解释。

04-01

自己练手的代码，爬虫小程序，爬一些鬼故事。。。自己练手的代码，爬虫小程序，爬一些鬼故事。。。自己练手的代码，爬虫小程序，爬一些鬼故事。。。自己练手的代码，爬虫小程序，爬一些鬼故事。。。

python爬虫源码附注解_一段完整的批量下载网站视频资源的python爬虫代码（附注解）...

weixin_39857480的博客

11-21

171

#本程序为学习代码，成功爬取了＇梨视频＇网站的全部视频文件，并保存在video文件夹importosimportreimportrequestsdefgetHTMLText(url):try:r=requests.get(url)r.raise_for_status()r.encoding=r.apparent_encodingreturnr.textexcept:print("request f...

python爬虫源码附注解_Python爬虫遇到验证码的几种处理方式，文章末尾有源码

weixin_39599454的博客

11-26

117

最近事情其实挺多了，打了一下蓝桥杯的比赛，还在准备着一些证书的考试，关于爬虫之类的博客都搁着了一段时间了，关于我自己确实有点退步了，实属不该，其实我自己也是在想，大三了，到底我是要去考研，还是依然像这样更新换代的学技术，再或者，继续钻爬虫这路子，虽然我也不知道这路走的顺不顺，自己也有点抓不住光明，这段时间，大概花了一个多月的晚上吧，终于把Django 的大致过了一次，剩下...

10月5号爬虫日志

sbqaqsjb的博客

10-15

152

今天比较忙，只看了Python爬虫书，代码如下 import requests #先导入爬虫的库，不然调用不了爬虫的函数 response = requests.get( "http://www.zhihu.com") #第一次访问知乎，不设置头部信息 print( "第一次,不设头部信息,状态码:"+response.status_code )# 没写headers，不能正常爬取，状态码不是 200 #下面是可以正常爬取的区别，更改了User-Agent字段 headers = { "Us

超详细的Python爬虫案例讲解分享（附源码）

m0_46555031的博客

01-20

1928

以下是本案例代码，把User-Agent、Accept、Accept-Language、Accept-Ecoding、Cookie五个字段值改成刚刚在网页中查询到的，然后发送邮箱、邮箱授权码、接收邮箱也填写自己对应的信息。本案例需要获取User-Agent、Accept、Accept-Language、Accept-Ecoding、Cookie五个字段，前四个字段可能都是相同的，主要是Cookie不同。我们打开网页后，例如要获取《肖申克的救赎》电影的导演，把鼠标移动至该电影的导演处，右击，选择审查元素。

基于Python的豆瓣top250电影爬虫与数据可视化分析设计源码

最新发布

04-16

本源码项目是基于Python的豆瓣top250电影爬虫与数据可视化分析设计，包含84个文件，主要使用Python、JavaScript、CSS和HTML编程语言。该项目旨在爬取豆瓣top250电影的详细信息，并进行数据可视化分析。系统提供了...

基于python爬虫豆瓣电影Top250数据分析与可视化系统完整源码.zip

03-04

【资源说明】 1、该资源包括项目的全部源码，下载可以直接使用！ 2、本项目适合作为计算机、数学、电子信息等专业的...基于python+Flask框架+Echarts+WordCloud的爬虫豆瓣电影Top250数据分析与可视化系统完整源码.zip

python爬虫源码-豆瓣读书Top250

01-03

python爬虫源码-豆瓣读书Top250

python爬虫豆瓣电影TOP250,以及数据化分析

01-20

在本项目中，我们主要探讨的是使用Python编程语言进行网络爬虫来抓取豆瓣电影TOP250的数据，并对其进行后续的数据分析。这个过程涉及到多个关键的IT知识点，包括Python的基础语法、网络爬虫的实现、数据处理以及数据...

爬虫代码里面有详尽的注释

09-26

这是一个完整的爬虫代码，希望能给新学的有些帮助

简单的网络爬虫源码（注释详细）

08-28

简单的网络爬虫源码（注释详细），亲写可用！

python爬虫脚本小解（含注释）

彭大帅的博客

02-24

621

【代码】python爬虫脚本小解（含注释）

python爬虫步骤-Python爬虫详解，每一个步骤都给你细腻的讲解（附源码）

q6q6q的专栏

10-28

360

序言文中的文本及图片来自互联网,仅作学习培训、沟通交流应用,不具备一切商业行为,著作权归著作人全部,如不太好请立即在线留言以作解决。今日来教大伙儿怎么使用Python来抓取博海拾贝的图片，归类储存，载入文本文档。项目目标建立一个文件夹名称，归类储存全部文章内容图片。免费下载取得成功，数据显示控制面板。项目分析报告1、怎样寻找真实浏览的详细地址，多网页页面请求?拖动电脑鼠标，观查网址，鼠标右键F1...

python爬取豆瓣图书Top250

weixin_50280512的博客

04-26

3403

【python爬虫案例】用python爬豆瓣读书TOP250排行榜！

马哥的专栏

08-31

1792

马哥原创：用python采集豆瓣读书250排行榜数据。

Python爬取豆瓣Top 250的电影,并输出到文件. demo,学习篇

熊猫路人

03-26

947

''' @time :2019/213 17:55 @desc :通过爬取http://movie.douban.com/top250/得到豆瓣Top 250的电影，并输出到文件movies.txt ''' # import 导入模块 import codecs import requests # 导入模块 bs4 的 BeautifulSoup 函数 from bs4 import B...

Python爬虫实战入门：豆瓣电影Top250(保你会，不会来打我)

书山有路勤为径，学海无涯苦作舟。

03-15

7059

点击进入数据包之后，首先要查看我们需要的数据是否都在这个数据包里面，如果我们需要的数据在这个数据包里面不全，则这个数据包可能不是我们需要的，要另外进行查找；这里要注意一下，有些电影可能会没有主演信息，如果按照常规方法那样的的话，当没有获取到数据就会报错，为了避免这种情况的发生，可以用异常处理一下，这样就算没有获取到信息也不会报错，程序还是可以继续进行，其他地方像上映年份前后都有。应为字典里面要有所有电影的数据信息，为了方便，我们直接在循环内部定义一个字典，每一部电影的数据都放在一个字典中。

python爬虫豆瓣top250详细代码

04-11

你好！以下是Python爬虫豆瓣Top250电影的详细代码： ```python import requests from bs4 import BeautifulSoup header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'} def get_movie_info(url): html = requests.get(url, headers=header).text soup = BeautifulSoup(html, 'html.parser') # 获取电影名称 movie_name = soup.find('span', attrs={'property': 'v:itemreviewed'}).get_text() # 获取电影评分 movie_score = soup.find('strong', class_='ll rating_num').get_text() # 获取电影导演、演员列表 credits = soup.find('div', class_='subject clearfix').find_all('a') directors = [] actors = [] for credit in credits: if 'rel' in credit.attrs and credit.attrs['rel'][0] == 'v:directedBy': directors.append(credit.get_text()) elif 'rel' in credit.attrs and credit.attrs['rel'][0] == 'v:starring': actors.append(credit.get_text()) # 获取电影简介 movie_intro = soup.find('div', class_='indent', id='link-report').span.get_text().strip().replace('\n', '') # 获取电影其他信息 movie_infos = soup.find('div', id='info').find_all('span') movie_country = '' movie_language = '' movie_runtime = '' for movie_info in movie_infos: if '制片国家/地区:' in movie_info.get_text(): movie_country = movie_info.next_sibling.strip().replace('\n', '') elif '语言:' in movie_info.get_text(): movie_language = movie_info.next_sibling.strip().replace('\n', '') elif '上映日期:' in movie_info.get_text(): movie_runtime = movie_info.next_sibling.strip().replace('\n', '') # 输出电影信息 print('电影名称：', movie_name) print('电影评分：', movie_score) print('导演：', directors) print('演员：', actors) print('制片国家/地区：', movie_country) print('语言：', movie_language) print('上映日期：', movie_runtime) print('电影简介：', movie_intro) print('\n') def main(): start = 0 urls = ['https://movie.douban.com/top250?start=' + str(start) for start in range(0, 250, 25)] for url in urls: html = requests.get(url, headers=header).text soup = BeautifulSoup(html, 'html.parser') movie_hrefs = soup.find_all('div', class_='hd') for movie_href in movie_hrefs: movie_url = movie_href.a['href'] get_movie_info(movie_url) if __name__ == "__main__": main() ``` 请注意，这只是简单的代码示例，如果您要爬取豆瓣Top250电影，请了解相关法律法规，遵守爬虫道德规范，尊重网站规则。

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交