猫眼TOP100
今天爬了猫眼TOP100的电影,那就使用Jupyter简单的分析查看一下吧。
使用的是Jupyter Notebook,所以代码如果直接复制在PyCharm里面可能会执行不了。
如何爬取的博客:爬虫学习日记3_猫眼TOP100
导包并清洗数据
根据上一篇博客里面写的爬取方式,我把爬取下来的数据存放在了MongoDB里面,所以首先需要加载数据。
import pandas as pd
import matplotlib.pyplot as plt
import pymongo
from functools import reduce
from collections import Counter
# 连接mongodb,并对数据进行简单的清洗
conn = pymongo.MongoClient()['猫眼top100']['ranking']
df = pd.DataFrame(list(conn.find())