前言
本文主要介绍通过Python提取csv文件中数据,并对数据进行处理。
编译器:Anaconda3 语言:Python3
提示:以下是本篇文章正文内容,本文仅为作者作为学习笔记使用,大佬勿喷
一、使用pandas和numpy库
通过pandas库可以从csv提取到数据,但是数据的格式是DateFrame 格式,因为我不懂怎么处理DateFrame 格式的数据,所以就使用numpy库,将提取的数据转化为数组格式,这样可以就可以通过对数组的处理方式处理csv文件的数据。写回csv文件的过程中,再转换为DateFrame即可。二、使用步骤
1.引入库
代码如下(示例):
import pandas as pd
import numpy as np
2.读入数据
本文是通过路径读取的文件。如果想通过文件名读取,需要把文件放与程序放到同一个文件夹中
代码如下(示例):
file1=pd.read_csv(r'C:\Users\86150\Desktop\1_Part2 附加测试题\Part2 附加测试题\4. data\data【各省-竞品】.csv')
此时读出的数据是DateFrame格式,输出如下
3.转化格式
将DateFrame 格式的数据转化为数组
file1=np.array(file1)
此时得到输出如下
4.处理数据
我们将所有省份是‘黑龙江’的数据挑选出来,并放入新的数组中
data=[]
for item in file1:
sh= item[0]
if "黑龙江" ==sh:
# print(item)
data.append(item)
这样就把数据挑选出来并存放在data中
补充
表头提取
Data_PATH='/Users/aoyupang/Desktop/data_3.csv'
df = pd.read_csv(Data_PATH, encoding='utf-8')
df.columns #提取表头
按条件索引
city_list=df['OUTCITY'].value_counts().index
city_list #提取出‘OUTCITY’ 这一列的数据中的项