python使用技巧(清洗数据,制表,文件操作)

文章介绍了如何使用Python的os库创建和管理目录,包括mkdir和makedirs函数。接着展示了pandas库的read_csv用于读取表格数据,以及如何构建和操作DataFrame。此外,还讨论了数据清洗,利用isnull检查缺失值,并使用dropna处理缺失值,最后将数据转换为torch张量。
摘要由CSDN通过智能技术生成
  • 在描写路径的时候可以不用写slash表示路径取而代之用os库的

import os
os.mkdir(os.path.join('..','data'))#去当前目录的父目录的data文件夹
os.makedirs(os.path.join('..','data')#递归创建目录如果不的存在就创建
os.makedirs(os.path.join('..','data') , exist_ok = True)
#exist_ok参数表示如果当前目录存在是否返回报错,true不返回
  • 使用pandas库来读取表格

import os
import pandas as pd
data_file = os.path.join('..','data','test.csv')#如果没有就创建
f = pd.read_csv(data_file) #读取表格
  • 制作表格

import pandas as pd
import os
t1 = ['1','2','3']
one_colume = pd.Series(t1,index=['x'...]) # 按照列 展示列表 可以自定义索引样式
t2 = ['a','b','c']
data = [t1 , t2]
many_co = pd.DataFrame(data , columns = ['t1','t2'] , dtype=float)
#把Series合并成一个DataFrame
  • 使用pandas清洗空值

import numpy as np
import pandas as pd
import torch

data = [[3,'NAN','NAN','NAN'],[11,22,33,'NAN'],[44,55,'NAN','NAN']]

mult = pd.DataFrame(data)
#DataFrame是一个表格类型的数据结构
#把不同的列表(或者是pandas库里头的Seise并成一个表格
print(mult)

boolmult = mult.isnull()
#这里为了直观可以构建一个布尔类型的DataFrame
print(boolmult)

missing_value = ['NAN']

mult.to_csv('2.2work.csv')

df = pd.read_csv('2.2word.csv' , na_values = missing_value)
#缺省值标记我们的特有的标签
new_df = df.dropna(axis = 1 , thresh = df.isnull().sum().max() - 1)
#thresh标签的意思是,达到多少个缺省值我们才删除这个列(行)
#axis = 0 是删除行 反之则是删除列

i = new_df.iloc[:,0:2]
o = new_df.iloc[:,2]
#用iloc方法取单独的列 i 取前两列,o取第三列

x = torch.tensor(i.values) , y = torch.tensor(o.values)
#最后转化为张量


  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Dou_Huanmin

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值