在数据预处理的过程中经常会使用python这个工具,想来每次处理新数据时总会因不同的需求而求助谷歌、百度来实现基础的数据处理操作(囧…),遂写此文贡日后参考,也希望能给进来浏览的小伙伴或多或少帮助,持续更新~
1. list操作
list可以说在数据处理过程中是不可或缺的,list部分基础操作代码如下所示。
list筛选操作示例:
#筛除lisy中小于5的数字
a = [1,2,3,5,8,10]
b = [x for x in a if x>=5]
#将list所有字符变为数字
a = ['1','2','3','5','8','10']
b = [int(x) for x in a ]
list去重:
a = [1,4,3,3,4,2,3,4,5,6,1]
b = list(set(a))
2. 将数据存储为csv、excel格式
对于结构化数据来说,最终的处理的结果可能是存入数据库,也可能用excel、csv和arff等文件形式进行存储。
pandas包为excel、csv等文件格式提供了良好的接口,使用pandas存储csv、excel的代码如下:
存储为csv示例代码:
#coding=utf-8
import pandas as pd
#定义列名col 和 数据 datas
col = ['feature1','feature2','class']
datas = [[1,2,1],[2,3,0]]
#构建数据矩阵
df = pd.DataFrame(datas, index=None, columns=col)
#定义存储路径file_path
file_path = 'D:\\1.xlsx'
#将数据写入csv文件中
df.to_csv(file_path,index=None)
存储为excel示例代码:
#coding=utf-8
import pandas as pd
#定义列名col 和 数据 datas
col = ['feature1','feature2','class']
datas = [[1,2,1],[2,3,0]]
#构建数据矩阵
df = pd.DataFrame(datas, index=None, columns=col)
#定义存储路径file_path
file_path = 'D:\\1.xlsx'
#将数据写入excel文件中
writer = pd.ExcelWriter(file_path)
df.to_excel(writer, 'Sheet1')
writer.save()
3. 文本最最基础的读写操作(-_-||| )
太简单,直接贴代码…
#coding=utf-8
def arff_to_excel(file_path):
f = open(file_path,'r')
datas = ''
#逐行读取文件内容
for l in f.readlines():
datas = datas + l
return datas
4. 读取文件夹下所有文件名路径
对文件夹操作主要涉及到python中的os模块,读取文件夹中所有文件路径的示例代码如下:
#coding=utf-8
import os
#读取目录中所有的文件路径
def getArffPath(file_dir):
file_path = []
for (root,dirs,files) in os.walk(file_dir):
for filename in files:
file_path.append(os.path.join(root,filename))
未完待续…