资源
中国历年票房链接: http://www.boxofficecn.com/boxofficecn
抓取数据
对脏数据进行处理
读取所有数据
插入代码段
import pandas as pd
# 假设 datatable 已经定义,并且包含数据
#datatable = [...]
# 创建 DataFrame,并使用第一行作为列名
df = pd.DataFrame(datatable, columns=datatable.pop(0))
# 提取 "票房(万元)" 列中的数字,并创建新的 "票房" 列
df["票房"] = df["票房(万元)"].str.extract(r"^(\d+(\.\d+)?)")[0]
# 删除包含 NaN 值的行
df = df[df["票房"].notna()]
# 删除 "序列" 和 "票房(万元)" 列
df = df.drop(columns=["序列", "票房(万元)"])
# 将 DataFrame 转换为列表的列表
datatable = df.values.tolist()
执行sql语句
CREATE TABLE boxoffice(
-- 年份字段,存储电影的发行年份
year int,
-- 电影名称字段,存储电影名称,最大长度255个字符
movie_name varchar(255),
-- 票房字段,存储电影的票房收入,使用浮点数表示
box_office float
);
批量插入到数据库
结果
使用官方指令
其中odbc的配置要注意为32位的
参考文献: http://t.csdnimg.cn/1B72c