爬取豆瓣top电影

最近学了好多可视化的东西,但是数据一直是别人的。今天爬一下豆瓣的top100电影,然后做个可视化,忙里偷闲吧~~
导入模块

import requests
import re	
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import csv

然后先看一下豆瓣top的url:
https://movie.douban.com/top250?start=0&filter=
这里start=0就是从第0部开始,翻页的话会发现url地址会改变:
https://movie.douban.com/top250?start=25&filter=
每一页是25部电影,这里可以通过改变url里的参数来进行翻页爬取。
一般的话,爬虫用的是requests包来获取网页源代码,用正则表达式来提取自己需要的信息,当然也可以用xpath和beautifulsoup来提取,这些以后我再用吧。
这里先写一个获取网页原代码的方法:

def get_one_page(url):
	try:
		headers={
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'}#设置请求头,也就是浏览器
		response=requests.get(url,headers=headers)
		if response.status_code==200:
			return response.text
		else:
			return None
	except RequestException:
		return 	None
	

这很容易,就是获取网页的源代码而已,下一步我们来看看源代码长什么样,我们要提取的信息有哪些,怎么用正则表达式去提取它们

在这里插入图片描述
打开源代码就会发现每一部电影的详细信息都是放在

  • 这个标签下的,我选了第一个来看看它的结构,这里我要爬取序号,名称,图片,导演,上映年份和评分,简介七个元素,那么binggo,我们来写解析网页的正则表达式
  • def parse_one_page(html):
    	pattern=re.compile('<li>.*?<em class="">(.*?)</.*?alt="(.*?)" src="(.*?)".*?<p class="">".*?导演:(.*?)&nbsp.*?<br>(.*?)&nbsp.*?average">(.*?)</.*?inq">(.*?)</span>',re.S)
    	items=re.findall(pattern,html)
    	for item in items:
    		yield {
    		"index":item[0],
    		"title":item[1],
    		"img":item[2],
    		"director":item[3],
    		"time":item[4].strip(),#去掉前面的空格
    		"score":item[5],
    		"info":item[6]
    		}
    		
    

    用yield可以迭代返回很漂亮的字典。
    顺便把图片下载下来吧,url地址item[2]已经给我们了

    def load_img(url,name):
    	response=requests.get(url)
    	with open("图片封面/"+name+".jpg","wb") as f:
    		f.write(response.content)
    		
    

    然后把我们要爬取的七个元素整理成表格,输出为csv格式

    def write_to_csv(item):
    	with open("豆瓣电影.csv","a",encoding="utf_8_sig",newline="") as f:
    		fieldnames=["index","title","img","director","time","score","info"]
    		w=csv.DictWriter(f,fieldnames=fieldnames)
    		w.writerow(item)
    	
    

    终于写完了,最后写个主体函数:

    def main(url):
    	html=get_one_page(url)
    	for item in parse_one_page(html):
    		write_to_csv(item)
    		load_img(item["img"],item["title"])
    	
    

    好了,现在就运行吧

    if __name__=="__main__":
    	iteration=["0","25","50","75"]
    	for iter in iteration:
    		url="https://movie.douban.com/top250?start="+iter+"&filter"
    		main(url)
    

    看一看效果
    在这里插入图片描述
    在这里插入图片描述
    还可以。这里的网页原代码用的是mac自带的浏览器,源代码不太一样,建议大家用chrome的好一点,下面几篇会加上beautifulsoup处理和可视化画图,***

    实习找不到,考试也没戏,随便写写了。。。。**

    以上。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值