数据库实战--影刀版_影刀抓取电影票房-CSDN博客

本文链接：https://blog.csdn.net/JennyXi2001/article/details/140817032

数据库实战--影刀版

资源

资源

中国历年票房链接: http://www.boxofficecn.com/boxofficecn

抓取数据

在这里插入图片描述

对脏数据进行处理

在这里插入图片描述

读取所有数据

在这里插入图片描述

插入代码段

import pandas as pd

# 假设 datatable 已经定义，并且包含数据
#datatable = [...]

# 创建 DataFrame，并使用第一行作为列名
df = pd.DataFrame(datatable, columns=datatable.pop(0))

# 提取 "票房（万元）" 列中的数字，并创建新的 "票房" 列
df["票房"] = df["票房（万元）"].str.extract(r"^(\d+(\.\d+)?)")[0]

# 删除包含 NaN 值的行
df = df[df["票房"].notna()]

# 删除 "序列" 和 "票房(万元)" 列
df = df.drop(columns=["序列", "票房（万元）"])

# 将 DataFrame 转换为列表的列表
datatable = df.values.tolist()

执行sql语句

CREATE TABLE boxoffice(
    -- 年份字段，存储电影的发行年份
    year int,
    
    -- 电影名称字段，存储电影名称，最大长度255个字符
    movie_name varchar(255),
    
    -- 票房字段，存储电影的票房收入，使用浮点数表示
    box_office float
);