python数据分析实战一：IMDB Top 250

最新推荐文章于 2024-01-16 18:13:27 发布

晓炜

最新推荐文章于 2024-01-16 18:13:27 发布

阅读量1k

点赞数

分类专栏：数据分析文章标签：数据分析

本文链接：https://blog.csdn.net/weixin_43084570/article/details/108986605

版权

本文涵盖了IMDb Top 250电影的数据抓取、准备、清洗、分析和可视化。首先从网站抓取数据，然后进行数据预处理，包括处理缺失值和数据整理。接着进行数据清洗，去除脏数据。最后分析了每年顶级电影的数量、评分分布、等级比例、导演和编剧排名、时长分布、类型和国家比例、预算和票房分布等，揭示了最成功的商业电影以及与中国相关的电影。

摘要由CSDN通过智能技术生成

Top 250 Movies in IMDB

This article deals with the top 250 movies in IMDB, including data scraping, data preparation, data cleaning, data analysis and visualization.

Data scraping

First, we need to scrape the data from this website.

# import package
import pandas as pd
import time
import urllib.request
from lxml.html import fromstring
from bs4 import BeautifulSoup

# download html
def download(url):
    print('Downloading:', url)
    request = urllib.request.Request(url)
    request.add_header('User-agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36') #进行伪装
    resp = urllib.request.urlopen(request)
    html = resp.read().decode('utf-8')
    return html


# content to be scrape
Name = []
Year = []
Rate = []
Level = []
Directors = []
Writers = []
Stars = []
Genres = []
Runtime = []
Country = []
Language = []
Budget = []
Box_Office_USA = []
Box_Office_World = []

start_url = download('https://www.imdb.com/chart/top/?ref_=nv_mv_250')
domain = 'https://www.imdb.com/'
start_soup = BeautifulSoup(start_url)

# scrape every item
for k in range(250):
    sub_html = start_soup.find_all('tbody')[0].find_all('a')[2*k+1].get('href')
    url = download(domain + sub_html)
    time.sleep(3)   
    tree = fromstring(url)
    soup = BeautifulSoup(url)
    name = soup.find('span',{
   'id':'titleYear'}).previous_sibling
    Name.append(name.replace(name[-1],''))
    Year.append(tree.xpath('//*[@id="titleYear"]/a')[0].text_content())
    Rate.append(tree.xpath('//*[@id="title-overview-widget"]/div[1]/div[2]/div/div[1]/div[1]/div[1]/strong/span')[0].text_content())
    Level.append(soup.find('div',{
   'class':'subtext'}).span.previous_sibling.strip())
    try:
        Directors.append(soup.find(text='Director:').parent.parent.find('a').get_text())
    except AttributeError:
        directors = [k.get_text() for k in soup.find(text='Directors:').parent.parent.find_all('a')]
        Directors.append('/'.join(directors))
    try:
        writers = [k.get_text() for k in soup.find(text='Writers:').parent.parent.find_all('a')]
        Writers.append('/'.join(writers))
    except AttributeError:
        Writers.append(soup.find(text='Writer:').parent.parent.find('a').get_text())
    stars = [k.get_text()

最低0.47元/天解锁文章

晓炜

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
python数据分析实战一：IMDB Top 250

Top 250 Movies in IMDBData preparationData cleaningMissing valueData wranglingData analysis and visualizationNumber of top250 movies every yearThe distribution of RatePercent of each levelTop 10 directorsTop 10 WritersTop 10 StarsThe distribution of runtim
复制链接

扫一扫