python爬取豆瓣网Top250电影信息并对信息作统计处理

本文介绍了如何使用Python爬取豆瓣网Top250电影的信息,并进行统计处理。首先,通过理解网站结构,利用XPath获取电影的相关数据,然后将数据保存到Excel文件。接着,对爬取的数据进行分析,包括电影评分和发行年份的统计,通过图表展示结果。
摘要由CSDN通过智能技术生成

python爬取豆瓣网Top250电影信息并对信息作统计处理

目标网站:https://movie.douban.com/top250

一、爬取保存豆瓣网Top250电影相关信息

运行本代码需要以下几个库

import time
import requests
import re
from openpyxl import workbook
from bs4 import BeautifulSoup as bs

python爬取网站时,首先第一步要了解网站结构,打开豆瓣网Top250,这里以谷歌浏览器为例,按下F12可以快速打开网站源码
在这里插入图片描述
快速查看xpath,找到需要爬取的信息的xpath,爬取,筛选有用信息保存到变量

def getData(self):
        gh = self.getHtml() 
        for html in gh: 
            soup = bs(html, 'lxml')
            for info in soup.find_all('div', class_='info'):
                c_name = info.find('span',class_='title').text.strip() # 电影中文名
                message = info.select('div.bd p')[0].text.strip() #导演、主演、年份、地区信息
                yat = re.search('[0-9]+.*\/?', message).group().split('/') #年份、地区、类型
                year,area,type = yat[0],yat[1],yat[2]#得到年份、地区、类型
                da = re.search('导演.+\s',message).group().strip()+'...' 
                director = re.findall('导演:(.+?)\s',da)[0].strip() #导演
                
                #没有主演信息时,进行异常处理
                try:
                    mainActors = re.findall('主演:(.+?)[.,]+',da)[0].strip()
                except IndexError:
                    mainActors = '暂无主演信息'
                mark_info = info.find('div',class_='star') 
                score= mark_info.find('span',class_='rating_num').text.strip()#评分
                count = re.search('[0-9]+',mark_info.select('span')[
爬虫(Web Crawler)是一种自动化程序,用于从互联上收集信息。其主要功能是访问页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于数据抓取的场景。 爬虫的工流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对站造成过大负担或触发反爬虫机制,爬虫需要遵守站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重站的使用政策,并确保对被访问站的服务器负责。
随着科技的不断进步,我们的生活变得越来越离不开各种各样的程序。程序已成为我们日常生活和工中不可或缺的一部分,它们可以帮助我们更高效地完成任务,节省时间和精力。今天,我要向大家介绍一款功能强大、用途广泛的程序,它具有万金油般的能力,可以为我们的生活带来极大的便利。 首先,这款程序具有非常强大的功能。它不仅可以帮助我们完成日常的文字处理数据分析和报表制等任务,还支持各种格式的文件读取和编辑。同时,它还具有多种工具和插件,可以扩展其功能,满足我们不同的需求。无论是工还是生活,这款程序都能帮助我们轻松应对各种挑战。 其次,这款程序的界面设计非常友好。它的界面简洁明了,操简单易懂,即使是不熟悉电脑操的人也可以轻松上手。同时,它还支持自定义快捷键和界面主题,可以让我们根据自己的习惯和喜好进行个性化设置。 此外,这款程序还具有出色的稳定性和安全性。它采用了先进的技术和算法,可以保护我们的文件和数据安全。同时,它还支持自动备份和恢复功能,即使出现意外情况,也可以帮助我们快速恢复到之前的状态。 总之,这款程序就像生活中的万金油一样,具有广泛的应用场景和多种功能。它可以为我们的生活和工带来便利和效率,帮助我们更好地应对各种挑战。如果您还在为处理各种任务而烦恼,不妨尝试一下这款程序,或许它会成为您的得力助手。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值