moore 数据集_关于整理moore数据集的一些操作

本文介绍了如何处理Moore数据集,包括合并文件、使用awk和sed命令进行数据预处理,用C++程序找出各列最大值和最小值,以及利用这些最值对数据进行归一化处理,将数据归一化到0-1区间。
摘要由CSDN通过智能技术生成

moore数据集有10个文件,可以把前面若干行删除后只留下逗号分隔的每行一条流的文件txt文件。

10个文件

然后可以使用:cat entry01.txt >> total.txt到cat entry02.txt >> total.txt最后到cat entry10.txt >> total.txt将10个txt文件的内容全部追加合并到total.txt中。>>是输出重定向命令。

使用awk命令可以求出对应的一列的最大值或者最小值

注意指定分隔符

awk求最值

使用sed命令#sed -i "s/?/0/g" total.txt将文本中一些特殊字符串替换成其他的,比如一行数据的?号全替换成0,同理可将"Y,"和"N,"等字符替换成"0,"和"1,"数字,加上逗号是为了防止将分类中的YN字符也被替换

使用c++程序,打开total文件找到各列的最大值和最小值,并保存到另一个文件find_max_min.txt。

#include

#include

#include

using namespace std;

//字符串分割函数

void string_split(const string &str, vector &v_double, const string &delim)

{

int pos1 = 0, pos2 = 0;

int len = str.length();

while (pos1 < len && pos2 != string::npos)

{

int count = 0;

pos2 = str.find_first_of(delim, pos1);

if (pos2 != string::npos)

{

if (pos1 < pos2)

{

coun

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值