简单的一次数据预处理

创建人工数据集

逗号分割,存储在CSV中

import os

os.makedirs(os.path.join('..', 'data'), exist_ok=True)
data_file = os.path.join('..', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price\n')
    f.write('NA,Pave,127500\n')
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

在这里插入图片描述

从刚才创建的CSV文件中加载原始数据集

import pandas as pd

data = pd.read_csv(data_file)
print(data)

在这里插入图片描述

处理缺失数据

典型方法:插值和删除
例如:插值

inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]  # outputs后面使用
inputs = inputs.fillna(inputs.mean())  # 使用该列的均值替换缺失值
print(inputs)

在这里插入图片描述
对于inputs中的类别值或离散值,我们将“NaN”视为一个类别

inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)

在这里插入图片描述
将inputs和outputs转换成张量格式

import torch

X, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
X, y

总结

1.人工数据集存入CSV
2.从CSV读取,一些简单数据预处理
3.转换生成Tensor

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在进行MATLAB数据预处理时,一般需要进行以下几个步骤: 1. 数据清洗:删除无关数据、重复数据,平滑噪声数据,并筛选与挖掘主题无关的数据。在处理缺失值时,可以选择删除记录、数据插补或不处理。常用的插值方法有Hermite插值、分段插值、样条插值法,其中最常用的是拉格朗日插值法和牛顿插值法。异常值处理时需要根据具体情况决定是否剔除,因为有些异常值可能包含有用的信息。 2. 数据集成:数据挖掘所需的数据通常分布在不同的数据源中,数据集成是将多个数据源合并存放在一个一致的数据存储(如数据仓库)中的过程。在数据集成过程中,需要解决实体识别和属性冗余问题。实体识别涉及到检测和解决同名异义、异名同义、单位不统一等冲突。属性冗余识别主要解决同一属性多次出现和同一属性命名不一致导致的重复问题。通过仔细整合不同源数据,可以减少数据冗余和不一致,提高数据挖掘的速度和质量。 3. 数据变换:在数据预处理过程中,可能需要对数据进行变换以满足挖掘算法的要求。常见的数据变换方法包括离散化、归一化、标准化等。离散化可以将连续属性转化为离散属性,以便进行分类或关联分析。归一化和标准化可以将不同范围的属性值映射到统一的区间,以避免因属性值差异过大而对数据挖掘结果产生影响。 总结起来,MATLAB数据预处理涉及数据清洗、数据集成和数据变换等步骤,目的是为了提高数据的质量和适应性,以保证后续的数据挖掘分析能够得到准确和可靠的结果。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [【matlab】数据预处理](https://blog.csdn.net/u011956367/article/details/94862017)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [MATLAB数据分析与挖掘 --数据预处理篇](https://blog.csdn.net/yunlinzi/article/details/90300113)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值