【人工智能概论】 数据集与数据标准化

【人工智能概论】 数据集与数据标准化


一. 数据集获取与数据集简介

  • Server Machine Dataset(SMD)
  1. 下载链接:https://github.com/NetManAIOps/OmniAnomaly/tree/master/ServerMachineDataset
  2. 数据集简介:
  • 数据集收集的是28个机器连续5周的数据,相邻两组数据间间隔一分钟。
  • 总共收集28个机器的数据,每个机器收集38个维度(变量)的信息。
  • 训练集与测试集的数据量是1:1的,训练集无label,测试集有label。
  • 时间信息是隐匿的
  1. 数据文件中内容说明:
  • 文件名采用machine-x-y.txt的形式,其中x代表组,y是组里的index,每一个machine-x-y代表一个具体的机器。
  • train:包含数据的前半部分,作为训练集,无标签。
  • test: 包含数据的后半部分,作为测试集,有标签。
  • test_label: 测试集标签,表明某一时间节点处是否处于异常状态。
  • interpretation_label: 该数据集给出异常点的具体异常维度。

二. 数据集标准化处理

2.1 处理后的数据集文件结构

  • SMD —|
  •       |-- train
    
  •       |-- test (注:label与数据合并到一个文件中了)
    

2.2 格式细节

  • 时间采用datatime格式,如果时间信息是隐匿的,则赋予数字编号0-n。
  • label列名统一用"label",0为正常,1为异常。
  • 数据的记录形式从txt文件调整成csv文件。

三.处理代码

# 将SMD数据集的保存形式从txt转变成csv,且将测试集的label与测试集关联起来。

import os
import numpy as np
import pandas as pd

# 指定SMD原始数据集的位置
dataset_folder = './datasets/ServerMachineDataset'

# 处理后的数据集保存路径
output_folder = './processed_datasets_csv/SMD'
os.makedirs(output_folder, exist_ok=True)

def load_and_save(category,filename):
    # category用于区分式训练集还是测试集。
    # 函数的功能是将txt文件转换成csv文件,并保存到合适位置。

    # 生成保存数据的文件夹,如果已经存在则此指令忽略,不进行报错。
    os.makedirs(os.path.join(output_folder,category),exist_ok=True)

    # 读取文件,并用" , "进行分隔,以便于后续保存成csv文件
    temp = np.genfromtxt(os.path.join(dataset_folder,category,filename),dtype=np.float32,delimiter=',')

    # 获取特征数量,此处应该是38。
    fea_len = len(temp[0,:])

    # 弄一个空列表以便于,后续修改数据的列名。
    header_list = []

    for i in range(fea_len):
        # 为每一列的标题准备名称 col_i,i是变量。
        header_list.append("col_%d"%i)

    # 把temp转化成DataFrame格式,并且指定列标签。
    data = pd.DataFrame(temp, columns=header_list).reset_index()

    # 在原数据上(inplace=True)把列标签index重命名成timestamp,便于理解
    data.rename(columns={'index': 'timestamp'}, inplace=True)

    # 如果是test还要把数据和label合并到一个文件下。
    if category == "test":

        # 读取标签信息
        temp1 = np.genfromtxt(os.path.join(dataset_folder, "test_label", filename),
                         dtype=np.float32,
                         delimiter=',')

        # 将temp1转化成DataFrame格式,并给它这一列命名成“label”。
        data1 = pd.DataFrame(temp1, columns=["label"]).reset_index()

        # 同样的,在原数据上(inplace=True)把列标签index重命名成timestamp
        data1.rename(columns={'index': 'timestamp'}, inplace=True)

        # 将标签信息与数据信息组合起来
        data = pd.merge(data, data1, how="left", on='timestamp')

    print(category,",",filename,",",data.shape)
    data.to_csv(os.path.join(output_folder,category,filename.split('.')[0]+".csv"),index=False) # 输出成csv文件




def load_data():
    for category in ["train","test"]:
        # 生成新的数据集
        file_list = os.listdir(os.path.join(dataset_folder, category))  # 确定原始数据集路径
        for filename in file_list: # 遍历原始数据集路径下的全部文件
            if filename.endswith('.txt'):# 由前置内容不难知所有的数据都是采用.txt文件的形式保存,因此要找到以.txt形式结尾的文件
                load_and_save(category, filename)  # 将数据集的txt文件保存成csv文件


if __name__ == "__main__":
    load_data()
  • 6
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 数据资源与数据资产概论 pdf 是一本介绍数据资源和数据资产的电子书,通过对数据资源和数据资产的概念、特点、管理和价值等方面的阐述,帮助读者深入了解和掌握数据资源与数据资产的重要性和应用价值。 首先,该电子书会对数据资源和数据资产的概念进行详细解释。数据资源指的是组织或个人所拥有的各种数据,包括结构化数据、非结构化数据以及半结构化数据等。而数据资产则是指将数据资源进行管理和加工后产生的具有经济价值和战略价值的资产。 其次,该电子书会详细介绍数据资源和数据资产的特点。数据资源具有价值、用途、可替代性、可复用性和有时效性等特点,这些特点使得数据资源可以成为组织决策和创新的重要依据。而数据资产则具有稀缺性、不可见性、粘性、渗透性和增值性等特点,这些特点使得数据资产具有投资和经营的潜力。 此外,该电子书还会介绍数据资源和数据资产的管理方法和策略。数据资源管理包括数据的收集、存储、处理、分析和挖掘等环节,目的是提高数据的价值和利用效率。数据资产管理则是对数据资产进行有效的投资和管理,以实现数据资产的增值和最大化利用。 最后,该电子书还会强调数据资源和数据资产的价值和应用。数据资源和数据资产的准确管理和有效利用可以帮助组织进行更好的决策、提高生产效率、优化业务流程,并在市场竞争中获得优势。 总之,数据资源与数据资产概论 pdf 是一本探讨数据资源和数据资产的重要性、特点、管理和价值等方面的电子书,通过阅读该书,读者可以全面了解和认识数据资源和数据资产,并在实践中充分发挥数据资源和数据资产的价值。 ### 回答2: 《数据资源与数据资产概论》是一本关于数据资源与数据资产的简介性PDF。数据资源和数据资产是指企业或组织拥有的数据的一种权益和价值。本书通过概论的方式介绍了这一领域的基本概念、理论和实践。 首先,本书对数据资源和数据资产进行了定义和解释。数据资源是指企业或组织拥有的各种数据,包括结构化数据、非结构化数据和半结构化数据数据资产是指对这些数据进行采集、存储、管理和分析等过程,从而创造出的价值和效益。 接着,本书详细阐述了数据资源和数据资产的重要性和作用。在现代社会,数据已经成为一种重要的资源和资产,对于企业和组织的发展和运营至关重要。通过合理而有效地利用数据资源和数据资产,企业和组织可以获得更多的竞争优势和商业利益。 然后,本书介绍了数据资源和数据资产的管理和运营。对于企业和组织来说,如何管理和运用数据是一个重大的挑战和机遇。本书提供了一些理论和方法,帮助读者理解和应用数据资源和数据资产管理的基本原理和流程。 最后,本书展望了数据资源和数据资产领域的未来发展趋势。随着科技的不断进步和数据的不断增长,数据资源和数据资产的重要性将不断提升。同时,数据伦理和数据安全等问题也将成为关注的焦点。 总的来说,《数据资源与数据资产概论》是一本简明扼要地介绍了数据资源和数据资产的基本概念、理论和实践的PDF。通过阅读本书,读者可以了解到数据资源和数据资产的重要性、管理和运营,以及未来的发展趋势。 ### 回答3: 数据资源是指组织或个人所拥有的各种类型的数据,包括文字、图像、音频、视频等,这些数据可以作为决策、创新和发展的基础。数据资源扮演着重要的角色,是现代社会不可或缺的重要资产。 数据资产则是指对数据资源的价值评估和管理。通过对数据资源进行采集、存储、分析和利用,可以将其转化为具有商业价值的数据资产。数据资产的管理包括对数据的分类、标注、备份、共享等,确保数据的可靠性、完整性和安全性。 数据资源与数据资产的概念在当前的数据驱动经济中变得越来越重要。通过有效地管理数据资源和开发数据资产,组织可以更好地进行业务决策、市场分析和创新研发。数据资源和数据资产的产生和利用,可以促进企业的竞争力和可持续发展。 在数据资源与数据资产的管理过程中,需注意保护个人隐私和数据安全。随着互联网的普及和信息技术的发展,个人和组织的数据面临着各种风险。因此,在数据资源和数据资产的管理中,需要采取合适的安全措施,加强数据的保护和合规管理。 总之,数据资源与数据资产是现代社会中一项重要的资产。通过科学、有效地管理和利用数据资源,可以为组织带来巨大的商业价值和竞争优势。同时,要保护好数据的安全和个人隐私,确保数据资源和数据资产的可持续利用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值