爬取豆瓣top电影

最新推荐文章于 2024-09-10 08:22:47 发布

提着茶壶来打醋

最新推荐文章于 2024-09-10 08:22:47 发布

阅读量500

点赞数 3

分类专栏：网络爬虫文章标签：爬虫 python

本文链接：https://blog.csdn.net/weixin_42199251/article/details/90552427

版权

网络爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

最近学了好多可视化的东西，但是数据一直是别人的。今天爬一下豆瓣的top100电影，然后做个可视化，忙里偷闲吧～～
导入模块

import requests
import re	
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import csv

然后先看一下豆瓣top的url：
https://movie.douban.com/top250?start=0&filter=
这里start=0就是从第0部开始，翻页的话会发现url地址会改变：
https://movie.douban.com/top250?start=25&filter=
每一页是25部电影，这里可以通过改变url里的参数来进行翻页爬取。
一般的话，爬虫用的是requests包来获取网页源代码，用正则表达式来提取自己需要的信息，当然也可以用xpath和beautifulsoup来提取，这些以后我再用吧。
这里先写一个获取网页原代码的方法：

def get_one_page(url):
	try:
		headers={
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'}#设置请求头，也就是浏览器
		response=requests.get(url,headers=headers)
		if response.status_code==200:
			return response.text
		else:
			return None
	except RequestException:
		return 	None

这很容易，就是获取网页的源代码而已，下一步我们来看看源代码长什么样，我们要提取的信息有哪些，怎么用正则表达式去提取它们

在这里插入图片描述
打开源代码就会发现每一部电影的详细信息都是放在

这个标签下的，我选了第一个来看看它的结构，这里我要爬取序号，名称，图片，导演，上映年份和评分，简介七个元素，那么binggo，我们来写解析网页的正则表达式

def parse_one_page(html):
	pattern=re.compile('<li>.*?<em class="">(.*?)</.*?alt="(.*?)" src="(.*?)".*?<p class="">".*?导演：(.*?)&nbsp.*?<br>(.*?)&nbsp.*?average">(.*?)</.*?inq">(.*?)</span>',re.S)
	items=re.findall(pattern,html)
	for item in items:
		yield {
		"index":item[0],
		"title":item[1],
		"img":item[2],
		"director":item[3],
		"time":item[4].strip(),#去掉前面的空格
		"score":item[5],
		"info":item[6]
		}

用yield可以迭代返回很漂亮的字典。
顺便把图片下载下来吧，url地址item[2]已经给我们了

def load_img(url,name):
	response=requests.get(url)
	with open("图片封面/"+name+".jpg","wb") as f:
		f.write(response.content)

然后把我们要爬取的七个元素整理成表格，输出为csv格式

def write_to_csv(item):
	with open("豆瓣电影.csv","a",encoding="utf_8_sig",newline="") as f:
		fieldnames=["index","title","img","director","time","score","info"]
		w=csv.DictWriter(f,fieldnames=fieldnames)
		w.writerow(item)

终于写完了，最后写个主体函数：

def main(url):
	html=get_one_page(url)
	for item in parse_one_page(html):
		write_to_csv(item)
		load_img(item["img"],item["title"])

好了，现在就运行吧

if __name__=="__main__":
	iteration=["0","25","50","75"]
	for iter in iteration:
		url="https://movie.douban.com/top250?start="+iter+"&filter"
		main(url)

看一看效果
在这里插入图片描述

还可以。这里的网页原代码用的是mac自带的浏览器，源代码不太一样，建议大家用chrome的好一点，下面几篇会加上beautifulsoup处理和可视化画图，***