python3将本地JSON数据文件（大文件）写入MySQL数据库

最新推荐文章于 2023-05-31 11:55:06 发布

暮雪成冰

最新推荐文章于 2023-05-31 11:55:06 发布

阅读量1.7k

点赞数

分类专栏： ML

ML 专栏收录该内容

27 篇文章 1 订阅

订阅专栏

https://blog.csdn.net/layman2016/article/details/79252499

最近导师给了一个yelp上的评论数据，数据量达到3.55个G，如果进行分析时直接使用本地文件，选择python来分析，那么效率是非常低的；另一方面使用SQL来储存文本文件最为安全，之前使用CSV，txt存储的文本文件最后莫名其妙地出现一些奇怪字符，导致读取数据分割时出现错乱。下面给出一个简单的代码，将本地JSON文件内容存入数据库。

说明：python版本为3.5，使用第三方库为pymysql。因为数据量比较大，不能一次性读取到内存（否则内存报错），这里使用逐行读取的方式。数据库先创建后再使用以下代码；

import json
import pymysql

# 读取review数据，并写入数据库
# 导入数据库成功，总共4736897条记录
def prem(db):
    cursor = db.cursor()
    cursor.execute("SELECT VERSION()")
    data = cursor.fetchone()
    print("Database version : %s " % data)  # 结果表明已经连接成功
    cursor.execute("DROP TABLE IF EXISTS review")  # 习惯性
    sql = """CREATE TABLE review (
             review_id  VARCHAR(100),
             user_id  VARCHAR(100),
             business_id VARCHAR(200),
             stars INT,
             text VARCHAR(10000) NOT NULL,
             useful INT,
             funny INT,
             cool INT)"""
    cursor.execute(sql)  # 根据需要创建一个表格


def reviewdata_insert(db):

    with open('E:/data/yelp_data/dataset/review.json', encoding='utf-8') as f:
        i = 0
        while True:
            i += 1
            print(u'正在载入第%s行......' % i)
            try:
                lines = f.readline()  # 使用逐行读取的方法
                review_text = json.loads(lines)  # 解析每一行数据
                result = []
                result.append((review_text['review_id'], review_text['user_id'],            review_text['business_id'],review_text['stars'], review_text['text'], review_text['useful'],
                            review_text['funny'], review_text['cool']))
                print(result)

                inesrt_re = "insert into review(review_id, user_id, business_id, stars, text, useful,            funny, cool) values (%s, %s, %s, %s,%s, %s,%s, %s)"
                cursor = db.cursor()
                cursor.executemany(inesrt_re, result)
                db.commit()
            except Exception as e:
                db.rollback()
                print(str(e))
                break


if __name__ == "__main__":  # 起到一个初始化或者调用函数的作用
    db = pymysql.connect("localhost", "root", "password（你的密码）", "数据库名称", charset='utf8')
    cursor = db.cursor()
    prem(db)
    reviewdata_insert(db)
    cursor.close()

暮雪成冰

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python3将本地JSON数据文件（大文件）写入MySQL数据库

https://blog.csdn.net/layman2016/article/details/79252499最近导师给了一个yelp上的评论数据，数据量达到3.55个G，如果进行分析时直...
复制链接

扫一扫

专栏目录