最近学了好多可视化的东西,但是数据一直是别人的。今天爬一下豆瓣的top100电影,然后做个可视化,忙里偷闲吧~~
导入模块
import requests
import re
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import csv
然后先看一下豆瓣top的url:
https://movie.douban.com/top250?start=0&filter=
这里start=0就是从第0部开始,翻页的话会发现url地址会改变:
https://movie.douban.com/top250?start=25&filter=
每一页是25部电影,这里可以通过改变url里的参数来进行翻页爬取。
一般的话,爬虫用的是requests包来获取网页源代码,用正则表达式来提取自己需要的信息,当然也可以用xpath和beautifulsoup来提取,这些以后我再用吧。
这里先写一个获取网页原代码的方法:
def get_one_page(url):
try:
headers={
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'}#设置请求头,也就是浏览器
response=requests.get(url,headers=headers)
if response.status_code==200:
return response.text
else:
return None
except RequestException:
return None
这很容易,就是获取网页的源代码而已,下一步我们来看看源代码长什么样,我们要提取的信息有哪些,怎么用正则表达式去提取它们
打开源代码就会发现每一部电影的详细信息都是放在
- 这个标签下的,我选了第一个来看看它的结构,这里我要爬取序号,名称,图片,导演,上映年份和评分,简介七个元素,那么binggo,我们来写解析网页的正则表达式
-
def parse_one_page(html): pattern=re.compile('<li>.*?<em class="">(.*?)</.*?alt="(.*?)" src="(.*?)".*?<p class="">".*?导演:(.*?) .*?<br>(.*?) .*?average">(.*?)</.*?inq">(.*?)</span>',re.S) items=re.findall(pattern,html) for item in items: yield { "index":item[0], "title":item[1], "img":item[2], "director":item[3], "time":item[4].strip(),#去掉前面的空格 "score":item[5], "info":item[6] }
用yield可以迭代返回很漂亮的字典。
顺便把图片下载下来吧,url地址item[2]已经给我们了def load_img(url,name): response=requests.get(url) with open("图片封面/"+name+".jpg","wb") as f: f.write(response.content)
然后把我们要爬取的七个元素整理成表格,输出为csv格式
def write_to_csv(item): with open("豆瓣电影.csv","a",encoding="utf_8_sig",newline="") as f: fieldnames=["index","title","img","director","time","score","info"] w=csv.DictWriter(f,fieldnames=fieldnames) w.writerow(item)
终于写完了,最后写个主体函数:
def main(url): html=get_one_page(url) for item in parse_one_page(html): write_to_csv(item) load_img(item["img"],item["title"])
好了,现在就运行吧
if __name__=="__main__": iteration=["0","25","50","75"] for iter in iteration: url="https://movie.douban.com/top250?start="+iter+"&filter" main(url)
看一看效果
还可以。这里的网页原代码用的是mac自带的浏览器,源代码不太一样,建议大家用chrome的好一点,下面几篇会加上beautifulsoup处理和可视化画图,***实习找不到,考试也没戏,随便写写了。。。。**
以上。