csv python 逐行读取_Tips: 数据处理之python常用技术小结

最新推荐文章于 2023-09-13 14:40:39 发布

石雷鹏

最新推荐文章于 2023-09-13 14:40:39 发布

阅读量226

点赞数

文章标签： csv python 逐行读取

本文链接：https://blog.csdn.net/weixin_33038783/article/details/112312572

版权

在数据预处理的过程中经常会使用python这个工具，想来每次处理新数据时总会因不同的需求而求助谷歌、百度来实现基础的数据处理操作(囧…)，遂写此文贡日后参考，也希望能给进来浏览的小伙伴或多或少帮助，持续更新~

1. list操作

list可以说在数据处理过程中是不可或缺的，list部分基础操作代码如下所示。

list筛选操作示例：

#筛除lisy中小于5的数字
a = [1,2,3,5,8,10]
b = [x for x in a if x>=5]

#将list所有字符变为数字
a = ['1','2','3','5','8','10']
b = [int(x) for x in a ]

list去重：

a = [1,4,3,3,4,2,3,4,5,6,1]
b = list(set(a))

2. 将数据存储为csv、excel格式

对于结构化数据来说，最终的处理的结果可能是存入数据库，也可能用excel、csv和arff等文件形式进行存储。
pandas包为excel、csv等文件格式提供了良好的接口，使用pandas存储csv、excel的代码如下：

存储为csv示例代码：

#coding=utf-8
import pandas as pd

#定义列名col 和 数据 datas
col = ['feature1','feature2','class']
datas = [[1,2,1],[2,3,0]]
#构建数据矩阵
df = pd.DataFrame(datas, index=None, columns=col)
#定义存储路径file_path
file_path = 'D:\\1.xlsx'
#将数据写入csv文件中
df.to_csv(file_path,index=None)

存储为excel示例代码：

#coding=utf-8
import pandas as pd

#定义列名col 和 数据 datas
col = ['feature1','feature2','class']
datas = [[1,2,1],[2,3,0]]
#构建数据矩阵
df = pd.DataFrame(datas, index=None, columns=col)
#定义存储路径file_path
file_path = 'D:\\1.xlsx'
#将数据写入excel文件中
writer = pd.ExcelWriter(file_path)
df.to_excel(writer, 'Sheet1')
writer.save()

3. 文本最最基础的读写操作(-_-||| )

太简单，直接贴代码…

#coding=utf-8

def arff_to_excel(file_path):
    f = open(file_path,'r')
    datas = ''
#逐行读取文件内容
for l in f.readlines():
        datas = datas + l
return  datas

4. 读取文件夹下所有文件名路径

对文件夹操作主要涉及到python中的os模块，读取文件夹中所有文件路径的示例代码如下：

#coding=utf-8
import os

#读取目录中所有的文件路径
def getArffPath(file_dir):
    file_path = []
for (root,dirs,files) in os.walk(file_dir):
for filename in files:
            file_path.append(os.path.join(root,filename))

未完待续…

石雷鹏

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
csv python 逐行读取_Tips: 数据处理之python常用技术小结

在数据预处理的过程中经常会使用python这个工具，想来每次处理新数据时总会因不同的需求而求助谷歌、百度来实现基础的数据处理操作(囧…)，遂写此文贡日后参考，也希望能给进来浏览的小伙伴或多或少帮助，持续更新~1. list操作list可以说在数据处理过程中是不可或缺的，list部分基础操作代码如下所示。list筛选操作示例：#筛除lisy中小于5的数字a = [1,2,3,5...
复制链接

扫一扫