moore数据集有10个文件,可以把前面若干行删除后只留下逗号分隔的每行一条流的文件txt文件。
10个文件
然后可以使用:cat entry01.txt >> total.txt到cat entry02.txt >> total.txt最后到cat entry10.txt >> total.txt将10个txt文件的内容全部追加合并到total.txt中。>>是输出重定向命令。
使用awk命令可以求出对应的一列的最大值或者最小值
注意指定分隔符
awk求最值
使用sed命令#sed -i "s/?/0/g" total.txt将文本中一些特殊字符串替换成其他的,比如一行数据的?号全替换成0,同理可将"Y,"和"N,"等字符替换成"0,"和"1,"数字,加上逗号是为了防止将分类中的YN字符也被替换
使用c++程序,打开total文件找到各列的最大值和最小值,并保存到另一个文件find_max_min.txt。
#include
#include
#include
using namespace std;
//字符串分割函数
void string_split(const string &str, vector &v_double, const string &delim)
{
int pos1 = 0, pos2 = 0;
int len = str.length();
while (pos1 < len && pos2 != string::npos)
{
int count = 0;
pos2 = str.find_first_of(delim, pos1);
if (pos2 != string::npos)
{
if (pos1 < pos2)
{
coun