【动手学深度学习】关于数据预处理——2.2.5练习 2023.7.12

创建包含更多行和列的原始数据集

import torch

import os

os.makedirs(os.path.join('..','data'),exist_ok=True)

data_file = os.path.join('..','data','nba_data.csv')

with open(data_file,'w') as f:
    f.write('Points,Rebound,Assist,Steal,Blocks,Turnovers\n')
    f.write('81,10,10,1,2,NA\n')
    f.write('NA,NA,12,3,NA,5\n')
    f.write('20,NA,NA,2,NA,2\n')
    f.write('100,NA,2,NA,2,NA\n')
    f.write('30,2,8,2,NA,5\n')

import pandas as pd

data = pd.read_csv(data_file)

1. 删除缺失值最多的列

法1:
data.isnull().sum()
#查询各个列的缺失值个数

data.isnull().sum().idxmax()
#idxmax()函数返回请求轴上第一次出现最大值的索引名

data.drop(data.isnull().sum().idxmax(),axis=1)
#drop()函数删除最大缺失值个数的列
法2:
#定义drop_col删除列函数
def drop_col(m):
    
    num = m.isna().sum()
    #获得缺失值统计信息
    
    num_dict = num.to_dict()
    #转为字典
    
    max_key = max(num_dict,key=num_dict.get)
    #取字典中最大值的键
    
    del m[max_key]
    #删除缺失值最多的列
    
return m

drop_col(data)
#调用drop_col函数删除缺失值最多的列

2. 将预处理的数据集转为张量格式

output = data.drop(data.isnull().sum().idxmax(),axis=1)
#定义output存储法1中删除缺失值最多的列后的数据集


x = torch.tensor(output.values)
#将数据集转换为张量格式

参考b站教程:《动手学深度学习 v2 - 从零开始介绍深度学习算法和代码实现》

课程主页:https://courses.d2l.ai/zh-v2/

教材:https://zh-v2.d2l.ai/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值