python使用技巧(清洗数据，制表，文件操作）

最新推荐文章于 2024-09-17 23:15:58 发布

Dou_Huanmin

最新推荐文章于 2024-09-17 23:15:58 发布

阅读量113

点赞数 1

分类专栏： Python从高级新手到精通文章标签： python 开发语言深度学习 Powered by 金山文档

本文链接：https://blog.csdn.net/douhuanmin123/article/details/129683504

版权

Python从高级新手到精通专栏收录该内容

7 篇文章 0 订阅

订阅专栏

文章介绍了如何使用Python的os库创建和管理目录，包括mkdir和makedirs函数。接着展示了pandas库的read_csv用于读取表格数据，以及如何构建和操作DataFrame。此外，还讨论了数据清洗，利用isnull检查缺失值，并使用dropna处理缺失值，最后将数据转换为torch张量。

摘要由CSDN通过智能技术生成

在描写路径的时候可以不用写slash表示路径取而代之用os库的

import os
os.mkdir(os.path.join('..','data'))#去当前目录的父目录的data文件夹
os.makedirs(os.path.join('..','data')#递归创建目录如果不的存在就创建
os.makedirs(os.path.join('..','data') , exist_ok = True)
#exist_ok参数表示如果当前目录存在是否返回报错，true不返回

使用pandas库来读取表格

import os
import pandas as pd
data_file = os.path.join('..','data','test.csv')#如果没有就创建
f = pd.read_csv(data_file) #读取表格

制作表格

import pandas as pd
import os
t1 = ['1','2','3']
one_colume = pd.Series(t1,index=['x'...]) # 按照列 展示列表 可以自定义索引样式
t2 = ['a','b','c']
data = [t1 , t2]
many_co = pd.DataFrame(data , columns = ['t1','t2'] , dtype=float)
#把Series合并成一个DataFrame

使用pandas清洗空值

import numpy as np
import pandas as pd
import torch

data = [[3,'NAN','NAN','NAN'],[11,22,33,'NAN'],[44,55,'NAN','NAN']]

mult = pd.DataFrame(data)
#DataFrame是一个表格类型的数据结构
#把不同的列表（或者是pandas库里头的Seise并成一个表格
print(mult)

boolmult = mult.isnull()
#这里为了直观可以构建一个布尔类型的DataFrame
print(boolmult)

missing_value = ['NAN']

mult.to_csv('2.2work.csv')

df = pd.read_csv('2.2word.csv' , na_values = missing_value)
#缺省值标记我们的特有的标签
new_df = df.dropna(axis = 1 , thresh = df.isnull().sum().max() - 1)
#thresh标签的意思是，达到多少个缺省值我们才删除这个列（行）
#axis = 0 是删除行 反之则是删除列

i = new_df.iloc[:,0:2]
o = new_df.iloc[:,2]
#用iloc方法取单独的列 i 取前两列，o取第三列

x = torch.tensor(i.values) , y = torch.tensor(o.values)
#最后转化为张量