小白分析3：豆瓣电影top250爬虫（静态页面）

最新推荐文章于 2022-04-06 16:28:24 发布

poiuyds

最新推荐文章于 2022-04-06 16:28:24 发布

阅读量983

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/poiuyds/article/details/85793467

版权

本文记录了作者编写豆瓣电影Top250爬虫的过程，遇到的困难包括页面解析、数据存储到Excel的问题以及解决方法。在抓取导演信息时，由于页面结构复杂，最终采用了正则表达式匹配。同时，文章提到了数据存储为CSV时的编码问题及解决方案。

摘要由CSDN通过智能技术生成

上次写了豆瓣图书Top250的爬虫，趁热打铁，在生锈的大脑还能记住点什么的时候把豆瓣电影Top250的爬虫也写下来。

写在前面：

本来以为这个爬虫1个小时就能搞掂，最后出现各种各样的问题，又生病杂七杂八，写了好久，记几点经验：

1、页面解析完后，抓取标签还是用findall方法，在抓取导演部分时出错，最后改用re正则表达式匹配（下面细讲）；

2、上次将数据存入txt文档中，这次尝试存入excel，用到csv模块；

3、页面循环加在主程序中,再将数据append进列表，得到10个列表，写入excel出错；

4、以'wt'模式写入excel的数据每行之间都出现空行；

5、得到的csv文件在excel中都是乱码，首先用notepad++打开转utf-8无bom格式为utf-8格式。

错误1：

print数据检验时出现

element a at <0x39a9a80>或者类似 Element a at 0x???????，这样的一个值，其实它是一个列表，然后列表中的每一个值都是一个字典。

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

poiuyds

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

爬虫——豆瓣Top250

Ten_M的博客

03-15

664

使用requset库和bs4解析，最后保存为csv文件 import requests from bs4 import BeautifulSoup import pandas as pd import xlwt #https://movie.douban.com/top250?start=0 #https://movie.douban.com/top250?start=25&filter= #爬取网页获取响应分析发现网页url与页面有关 25*page def get_content(pa

豆瓣Top250电影爬虫

qq_38914914的博客

06-19

1867

随着社会科技的发展，互联网已经成为一个庞大的信息载体，通过网络爬虫自动搜集网上的资源已经成为人们利用互联网的高效方法。网络爬虫不仅可以将其采集的资源提供给搜索引擎，解决搜索问题，也可以定向的信息采集，得到人们需要的信息资源，如在招聘网收集岗位信息，购物网收集商品信息等。本次通过python实现了一个在豆瓣网收集豆瓣Top250的信息，通过bs4对其进行解析，搭配正则表达式提取数据，并将信息存入数据库。之后使用Flask实现数据的可视化，通过网页、图表的形式展现出来。关键字：Python， Flask，H

1 条评论您还未登录，请先登录后发表或查看评论

Python-静态网页示例-豆瓣电影Top250

Snail的博客

09-19

817

Python 爬虫静态网页示例-豆瓣电影Top250前期准备网站信息代码部分代码思路代码实现前期准备网站信息豆瓣官网TOP250：https://movie.douban.com/top250 打开网页，收集信息 top250的电影分为10页 F12打开控制台（笔记本Fn+F12）获取站点，及浏览器伪装信息，一会代码需要用（下图已经用红框标出）：在展开的详细信息中，复制下图的两点存起来备用，其中的url的start值在每次翻页后都会递增25： – 此时翻到第二页，url中

python爬虫03 —爬取静态页面（爬取豆瓣电影top250若干页的电影名称及评分）

weixin_47930147的博客

10-18

377

import requests import bs4 import time # 定义请求头 headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) /' 'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36' } # 定义获取页面和解析数据方法 def getinfo(url): .

Python网络爬虫实战11：爬取豆瓣电影top250的电影数据

简时刻的博客

06-13

1143

代码实例运行结果

小白分析2：豆瓣图书top250爬虫（静态页面）

poiuyds的博客

01-04

1576

python爬虫公认的练手项目就是豆瓣top250的图书和电影的抓取，静态页面且源码简单明了，之前也曾对着大神的例子边敲边理解，今番尝试自己动手，检验一下学习成果。所用的方法不是最简单的，只是自己理解的一种，还有很多问题，写下来留待以后改正。用时：5小时（呵呵，真有趣）第一次编辑遇到的问题： 1、作者项抓取包括许多其他信息，未能分开抓取；（split()方法解决） 2、第9页开始简...

Python爬虫实战----------豆瓣TOP250

mycocoo的博客

01-21

719

*前段时间学习了一些浅显的爬虫知识，防止遗忘写个博客记录一下，如果能帮到其他人是更好的本篇介绍一下如何一步一步实现使用python爬取豆瓣电影TOP250，博主是个小白，如果内容有误，请将宝贵的建议请留在评论区，谢谢* 本篇爬取的数据为静态数据一、什么是爬虫网络爬虫就是通过编写程序或脚本模拟人操作浏览器阅览网页。二、分析我们的目的是爬取豆瓣电影TOP250页面每部电影的详细信息 ...

Python爬虫，实现爬取静态网站数据（小白入门）

javaargs的博客

02-18

5075

简言： python最近越来越火了，我也跟着潮流学习了一把，今天写的就是教大家如何通过简简单单的二十几行代码爬取豆瓣前250名的高分电影名。第一步:导入模块导入我们所需要的模块，这里我们使用到的有三大模块 (导入的模块都是需要预先安装的，不知道如何安装的朋友可先移步到链接: 模块安装.） requests:用于访问网络资源 lxml:用于网页的解析 Beatif...

python爬虫（上课笔记）

qq_56478267的博客

04-06

6938

爬虫概述爬虫：网络爬虫是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。其本质就是通过编写程序拟浏览器上网，抓取数据的过程。爬虫特点在法律中都是不被禁止的；具有违法风险；爬虫是一个博弈的过程（反爬机制、反反爬策略） robots协议：规定了网站中哪些数据可以被爬取哪些数据不可以被爬取，属于一个君子协议。爬虫分类按照系统结构和实现技术，大致可以分为以下几种类型：通用爬虫：通常抓取互联网整张页面数据；聚焦爬虫：选择性地爬取与预定主题相关的网络爬虫；增量式爬虫：监测网站中数据的

利用定向网络爬虫爬取豆瓣电影top250【Python】

每天都要学Python的博客

07-07

2688

最近在外地实习，闲来无事学了一下requests库和BeautifulSoup，掌握基本用法之后试着爬取了一下豆瓣电影top250，中间也参考了不少其他大佬的博客，所以最后写出来的代码也都大同小异吧，就当聊以自慰了。简介利用requests库和bs4中的BeautifulSoup，实现对豆瓣电影top250的爬取，最后将电影信息写入一个文本文件中。代码如下 ''' @Author ...

在线电影影视网站html静态模板

12-04

在线电影影视网站html静态模板

零基础爬虫----python爬取豆瓣电影top250的信息（转）

dianwei0041的博客

02-19

483

今天利用xpath写了一个小爬虫，比较适合一些爬虫新手来学习。话不多说，开始今天的正题，我会利用一个案例来介绍下xpath如何对网页进行解析的，以及如何对信息进行提取的。 python环境：python3.5 先看看网页的样子 豆瓣电影网站链接我们下面将要对电影的名字、链接、评分、评价人数和一句话描述这些信息进行提取1、检查并复制电影名字的xPath信息电影《肖申...

超简单的豆瓣电影Top前250影片基本信息爬取

weixin_45630006的博客

05-14

2810

记录一篇简单的爬虫经历~豆瓣电影250top_百度搜索https://www.baidu.com/s?word=%E8%B1%86%E7%93%A3%E7%94%B5%E5%BD%B1250top&tn=25017023_10_pg&lm=-1&ssl_s=1&ssl_c=ssl1_1721136aead 爬虫内容参考阿优乐扬的博客-CSDN博客https://blog.csdn.net/ayouleyang/article/details/96023950? 爬取到的内容如

最全面详解python爬虫（一）：豆瓣电影top250（一）

weixin_45082954的博客

08-21

1409

本标题肯定是一个很烂的、很普遍的标题了，但是，小编还是照样硬着头皮写了本文出来。原因有二：一是将所学的东西分享出来，给大家伙儿参考；二是，相当于一个总结，总结这段时间所学到的新知识，方便以后自己的回顾和浏览。再此之前，先看一张本项目最后的结果，提前告知正在查看本篇博客的你，是否满足自己的需要，继续看下去：好了，效果图也看完了，那么正式进入正文。一、导入所需库众所周知，python之所以如此强大，是因为有着众多的库依靠。所以，一开头便是要为项目导入所需要的库。（对了，本项目是在pycharm上完.

实战1：【爬虫】爬取豆瓣TOP250的电影数据

qq_23015479的博客

11-11

1303

学习最重要的就是不断吸收新的知识和不断的输出，有的时候感觉学会了，但是想要将学会的东西写出来还是很费时间的，本篇博文从实战入手写一个爬虫，将学过的知识一点点串联起来，希望对大家的学习有帮助。

爬虫小小实战——豆瓣电影top250

qq_58277732的博客

11-16

1018

这就是豆瓣电影top250的首页，本次小小实战就是将电影名、年代、评分以及评分人数存到csv文件中以便进行后续的数据分析。一、基础先贴代码及结果 import re import requests url="https://movie.douban.com/top250" #豆瓣top250的网址 headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, l...

Python爬虫记录爬虫豆瓣电影Top 250

m0_45136861的博客

12-01

416

Python存储99乘法表到exl中 # -*- coding: utf-8 -*- import xlwt ''' wookbook = xlwt.Workbook(encoding="utf-8") #创建workbook对象 worksheet = wookbook.add_sheet('sheet1') #创建工作表 worksheet.write(0,0,'hello') # 行列内容 wookbook.save('student.xls') #保存数据表''' wookbo

我的第一个python爬虫：爬取豆瓣top250前100部电影

weixin_30802273的博客

10-31

1163

爬取豆瓣top250前100部电影 1 # -*-coding=UTF-8 -*- 2 3 import requests 4 from bs4 import BeautifulSoup 5 6 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/5...

python爬虫02 —爬取静态页面（豆瓣电影top250首页名称）

weixin_47930147的博客

10-15

236

# 导入requests和bs4两个库 import requests, bs4 # 准备基础数据，url和请求头 url = 'https://movie.douban.com/top250' header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36' } # 封装请...

Scrapy框架实战：豆瓣电影Top250爬虫教程

作者采用实战方式学习，选择了爬取豆瓣电影Top 250列表的任务，目的是练习使用Scrapy获取电影名称、封面图片和评价数量，并将结果保存到文件中。在这个过程中，作者不仅会学习如何设置Spiders（爬虫类），编写爬取...