对100M左右的数据进行保存和简单分析

本文介绍了如何使用Python与Excel对一个约100MB大小的CSV文件进行数据分析。通过运行多个Python脚本(t2.py到t9.py),实现了对大型数据集的高效处理和初步分析。
摘要由CSDN通过智能技术生成

老师给了一个100M左右的数据(.csv 格式),然后让我们用python 和excel 进行分析。

具体要求和代码:点击打开链接 (数据太大,无法上传,谁需要可以私我)

t2.py

import sqlite3
import pandas as pd

####   main       ##################################################
##分为两个步骤,先是对数据读取后进行处理
##然后将数据放入数据库
if __name__ == '__main__':
    ##三个文件路径
    ###########  对数据读取后进行处理   ############################################################
    fileName = ['./data/openData_Order201608_afterClear.csv', './data/openData_Order201609_afterClear.csv',
                './data/openData_Order201610_afterClear.csv']
    ##对每个文件进行处理
    for index in range(3):
        ##一行行处理数据,将所需要增加的都放在后面,不影响结果,但是操作更加方便
        rFile = open(fileName[index], "r")
        # 用来临时保存数据的文件,openData_Order201608.csv
        targetFile = fileName[index][7:27] + '.csv'
        wFile = open(targetFile, "w")
        # print(targetFile)
        lineCount = 0
        dataLine = rFile.readline()  # 读取一行数据
        while dataLine:
            lineCount += 1
            # 分割数据,用来接下来的处理
            dataList = dataLine.split(",")
            # print(dataList)
            ##对第一行,即header进行处理,增加所要求的内容
            if (lineCount == 1):
                dataList.append('MONTH')
                dataList.append('YEAR')
                dataList.append('AREA_NAME')
                dataList.append('BRAND_CODE')
                # print(dataList)
            else:
                # 对具体内容进行处理,增加所要求的内容
                MONTH = (dataList[0][4:6])
                #
                YEAR = (dataList[0][0:4])
                # print(YEAR)
                AREA_NAME = 'QX' + dataList[1][-3:]
                # print(AREA_NAME)
                BRAND_CODE = dataList[3][0:6]
                # print(BRAND_CODE)
                dataList.append(MONTH)
                dataList.append(YEAR)
                dataList.append(AREA_NAME)
                dataList.append(BRAND_CODE)

                # print(dataList)
            ##将内容整理好,放入临时文件
            lineContent = ""
            rolCount = 0
            for col in dataList:
                rolCount += 1
                if (rolCount == 1):
                    lineContent += col.strip()
                else:
                    lineContent += "," + col.strip()
            # 一行行写入
            wFile.write(lineContent + "\n")
            # print(lineContent)
            dataLine = rFile.readline()
        print("数据行数=", lineCount)
        rFile.close()
    
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值