在描写路径的时候可以不用写slash表示路径取而代之用os库的
import os
os.mkdir(os.path.join('..','data'))#去当前目录的父目录的data文件夹
os.makedirs(os.path.join('..','data')#递归创建目录如果不的存在就创建
os.makedirs(os.path.join('..','data') , exist_ok = True)
#exist_ok参数表示如果当前目录存在是否返回报错,true不返回
使用pandas库来读取表格
import os
import pandas as pd
data_file = os.path.join('..','data','test.csv')#如果没有就创建
f = pd.read_csv(data_file) #读取表格
制作表格
import pandas as pd
import os
t1 = ['1','2','3']
one_colume = pd.Series(t1,index=['x'...]) # 按照列 展示列表 可以自定义索引样式
t2 = ['a','b','c']
data = [t1 , t2]
many_co = pd.DataFrame(data , columns = ['t1','t2'] , dtype=float)
#把Series合并成一个DataFrame
使用pandas清洗空值
import numpy as np
import pandas as pd
import torch
data = [[3,'NAN','NAN','NAN'],[11,22,33,'NAN'],[44,55,'NAN','NAN']]
mult = pd.DataFrame(data)
#DataFrame是一个表格类型的数据结构
#把不同的列表(或者是pandas库里头的Seise并成一个表格
print(mult)
boolmult = mult.isnull()
#这里为了直观可以构建一个布尔类型的DataFrame
print(boolmult)
missing_value = ['NAN']
mult.to_csv('2.2work.csv')
df = pd.read_csv('2.2word.csv' , na_values = missing_value)
#缺省值标记我们的特有的标签
new_df = df.dropna(axis = 1 , thresh = df.isnull().sum().max() - 1)
#thresh标签的意思是,达到多少个缺省值我们才删除这个列(行)
#axis = 0 是删除行 反之则是删除列
i = new_df.iloc[:,0:2]
o = new_df.iloc[:,2]
#用iloc方法取单独的列 i 取前两列,o取第三列
x = torch.tensor(i.values) , y = torch.tensor(o.values)
#最后转化为张量