imdb文本爬取及数据清理

最新推荐文章于 2024-08-10 10:09:09 发布

qq_46513835

最新推荐文章于 2024-08-10 10:09:09 发布

阅读量1.1k

点赞数

文章标签：爬虫 python 开发语言

本文链接：https://blog.csdn.net/qq_46513835/article/details/121452850

版权

本文档介绍了如何爬取imdb电影数据，并进行了数据清洗，最后通过分析得出了出现频率最高的前十电影类别。

摘要由CSDN通过智能技术生成

imdb电影爬取代码

import requests
from bs4 import BeautifulSoup
import pandas as pd
import time
import numpy as np
import random

def bs_dealing(bs):
    movies_lst = []
    global page
    for movie in bs.findAll('div', {'class': 'lister-item-content'}):
        title = movie.find('a').string
        year = movie.find('span', {
            'class': 'lister-item-year text-muted unbold'
        }).string
        genres = movie.find('span', 'genre').string
        genres = genres.strip('\n').strip()
        # 控制网页返回的错误，runtime是否为空，以免数据无法正常写入
        if movie.find('span', 'runtime') is not None:
            runtime = movie.find('span', 'runtime').string
        else:
            runtime = 0
        rating = movie.find('div', {
            'class': "inline-block ratings-imdb-ra

最低0.47元/天解锁文章

qq_46513835

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
imdb文本爬取及数据清理

imdb电影爬取代码import requestsfrom bs4 import BeautifulSoupimport pandas as pdimport timeimport numpy as npimport randomdef bs_dealing(bs): movies_lst = [] global page for movie in bs.findAll('div', {'class': 'lister-item-content'}):
复制链接

扫一扫