csv python 逐行读取_Tips: 数据处理之python常用技术小结

      在数据预处理的过程中经常会使用python这个工具,想来每次处理新数据时总会因不同的需求而求助谷歌、百度来实现基础的数据处理操作(囧…),遂写此文贡日后参考,也希望能给进来浏览的小伙伴或多或少帮助,持续更新~

1. list操作

list可以说在数据处理过程中是不可或缺的,list部分基础操作代码如下所示。

list筛选操作示例:

#筛除lisy中小于5的数字
a = [1,2,3,5,8,10]
b = [x for x in a if x>=5]
#将list所有字符变为数字
a = ['1','2','3','5','8','10']
b = [int(x) for x in a ]

list去重:

a = [1,4,3,3,4,2,3,4,5,6,1]
b = list(set(a))

2. 将数据存储为csv、excel格式

对于结构化数据来说,最终的处理的结果可能是存入数据库,也可能用excel、csv和arff等文件形式进行存储。
pandas包为excel、csv等文件格式提供了良好的接口,使用pandas存储csv、excel的代码如下:

存储为csv示例代码:

#coding=utf-8
import pandas as pd

#定义列名col 和 数据 datas
col = ['feature1','feature2','class']
datas = [[1,2,1],[2,3,0]]
#构建数据矩阵
df = pd.DataFrame(datas, index=None, columns=col)
#定义存储路径file_path
file_path = 'D:\\1.xlsx'
#将数据写入csv文件中
df.to_csv(file_path,index=None)

存储为excel示例代码:

#coding=utf-8
import pandas as pd

#定义列名col 和 数据 datas
col = ['feature1','feature2','class']
datas = [[1,2,1],[2,3,0]]
#构建数据矩阵
df = pd.DataFrame(datas, index=None, columns=col)
#定义存储路径file_path
file_path = 'D:\\1.xlsx'
#将数据写入excel文件中
writer = pd.ExcelWriter(file_path)
df.to_excel(writer, 'Sheet1')
writer.save()

3. 文本最最基础的读写操作(-_-||| )

太简单,直接贴代码…

#coding=utf-8

def arff_to_excel(file_path):
f = open(file_path,'r')
datas = ''
#逐行读取文件内容
for l in f.readlines():
datas = datas + l
return datas

4. 读取文件夹下所有文件名路径

对文件夹操作主要涉及到python中的os模块,读取文件夹中所有文件路径的示例代码如下:

#coding=utf-8
import os

#读取目录中所有的文件路径
def getArffPath(file_dir):
file_path = []
for (root,dirs,files) in os.walk(file_dir):
for filename in files:
file_path.append(os.path.join(root,filename))

未完待续…

67a6a5facb1447741daec7b6c05c64e3.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值