数据挖掘与机器学习:数据变换

25 篇文章 11 订阅
21 篇文章 0 订阅

目录

第一关:极小极大归一化

任务描述:

相关知识:

一、原理介绍:

二、实现步骤:

三、归一化数据:

四、数据归一化原因:

编程要求:

测试说明:

第二关:0均值标准化:

任务描述:

相关知识:

一、原理介绍:

二、实现步骤:

三、0均值标准化的优缺点:

编程要求:

测试说明:


第一关:极小极大归一化

任务描述:

 本关任务:进行数据的极大极小归一化处理。

相关知识:

为了完成本关任务,你需要掌握:

  1. 极小极大归一化的介绍,
  2. 极小极大归一化的实现。

一、原理介绍:

通常情况下,在建模之前,都需要对数据进行标准化处理,以消除量纲的影响。如果对未标准化的数据直接进行建模,可能会导致模型对数值大的变量学习过多,而对数值小的变量训练不够充分,往往模型效果会不好。常用的数据标准化方法有最大最小归一化、均值方差标准化、小数定标法、定量特征二值化等。

最大最小归一化,顾名思义,就是利用数据列中的最大值和最小值进行标准化处理,标准化后的数值处于[0,1]之间,计算方式为数据与该列的最小值作差,再除以极差。

二、实现步骤:

引入库

用户使用 numpy 库进行基本的科学运算,pandas 库是一个强大的分析结构化数据的工具集,以 numpy 为基础。

  1. import numpy

创建数据

利用随机数种子,每次生成的随机数相同方便进行数据检测。pd.DataFrame 类似多维数组,每列数据可以是不同类型。

三、归一化数据:

将数据的最大最小值记录下来,并通过Max-Min作为基数(即 Min = 0,Max = 1)进行数据的归一化处理。

 

四、数据归一化原因:

  1. 在机器学习中归一化后加快了梯度下降求最优解的速度。
  2. 在机器学习中归一化有可能提高精度。
  3. 消除变量间的量纲关系,从而使数据具有可比性。

编程要求:

根据提示,在右侧编译器中的 begin-end 代码块内完成极小极大归一化函数代码。 

测试说明:

平台会对你编写的代码进行测试:

预期输出:

  1. value1 value2 value1_n value2_n
  2. 0 13.071792 20.708234 0.673810 0.155708
  3. 1 2.300139 74.246953 0.081684 0.761993
  4. 2 19.005657 39.215413 1.000000 0.365288
  5. 3 9.643828 18.225652 0.485372 0.127595
  6. 4 17.449491 74.353941 0.914456 0.763205

开始你的任务吧,祝你成功!

 

import numpy as np
import pandas as pd

np.random.seed(1000)
df = pd.DataFrame({"value1": np.random.rand(10) * 20,
                   'value2': np.random.rand(10) * 100})


# 创建函数,标准化数据
def data_norm(df, *cols):
    df_n = df.copy()
    ############## Begin ##############
    for col in cols:
        ma = df_n[col].max()
        mi = df_n[col].min()
        df_n[col + '_n'] = (df_n[col] - mi) / (ma - mi)
    ############## End ##############
    return df_n


df_n = data_norm(df, 'value1', 'value2')
print(df_n.head())

第二关:0均值标准化:

任务描述:

 本关任务:进行数据的0均值标准化处理。

相关知识:

为了完成本关任务,你需要掌握:

  1. 0 值标准化的实现,
  2. 0 值标准化的优缺点。

一、原理介绍:

        0 均值标准化处理方法处于整个框架中的数据准备阶段。也就是说,在源数据通过网络爬虫、接口或其他方式进入数据库中后,下一步就要进行的数据预处理阶段中的重要步骤。

        数据分析与挖掘中,很多方法需要样本符合一定的标准,如果需要分析的诸多自变量不是同一个量级,就会给分析工作造成困难,甚至影响后期建模的精准度。

        0 均值标准化是数据处理的一种常用方法。通过它能够将不同量级的数据转化为统一量度的 0 均值分值进行比较。也叫标准差标准化,这种方法给予原始数据的均值和标准差进行数据的标准化。

经过处理的数据符合标准正态分布,即均值为 0 ,标准差为 1 。

二、实现步骤:

 

三、0均值标准化的优缺点:

优点:

  1. 算法简单方便,结果方便比较;

  2. 可够应用与数值型的数据,并且不受数据量级的影响。

缺点

  1. 总体平均值与方差不一定可知;

  2. 在一定程度上要求数据分布;

  3. 0均值标准化的数据没有实际意义,只能用于比较。

编程要求:

 根据提示,在右侧编译器的 begin-end 代码块内完成 0 均值标准化函数代码。

测试说明:

平台会对你编写的代码进行测试:

预期输出:

  1. value1 value2 value1_Zn value2_Zn
  2. 0 65.358959 20.708234 0.520694 -1.024567
  3. 1 11.500694 74.246953 -1.093571 0.565028
  4. 2 95.028286 39.215413 1.409956 -0.475078
  5. 3 48.219140 18.225652 0.006971 -1.098276
  6. 4 87.247454 74.353941 1.176746 0.568204
  7. 5 21.233268 6.958208 -0.801862 -1.432813
  8. 6 4.070962 88.533720 -1.316258 0.989210
  9. 7 39.719446 95.264440 -0.247785 1.189049
  10. 8 23.313220 93.114343 -0.739520 1.125211
  11. 9 84.174072 41.543095 1.084629 -0.405968
  12. 标准化后value1的均值为:-0.00, 标准差为:1.00

开始你的任务吧,祝你成功!

 

import numpy as np
import pandas as pd

np.random.seed(1000)
df = pd.DataFrame({"value1": np.random.rand(10) * 100,
                   'value2': np.random.rand(10) * 100})
# print(df.head())

# 创建函数,标准化数据

def data_Znorm(df, *cols):
    df_n = df.copy()
    ############## Begin ##############
    for col in cols:
        u = df_n[col].mean()
        std = df_n[col].std()
        df_n[col + '_Zn'] = (df_n[col] - u) / std
    ############## End ##############
    return (df_n)

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
本书内容分为八个部分。共20章,分上、下两册,每册10章。各章均有大量习题。本书给出了大量的实际例子,这些例子涉及众多的学科和实际领域,但又不过于专门,容易理解。在大部分章节中都使用实例未引入主题,并把统计概念和这些非常实际的问题联系在一起进行讲解,深入浅出,从而可以避免许多人对统计所抱有的粗浅的感性认识,即认为统计仅仅是另一门数学课程。作者把统计数据的收集与分析过程总结成"四步法",并把"四步法"的讲解贯穿始终,利用实例逐步展开并阐明在设计调查研究或试验时所需要的统计技术和思路,然后讲解用直观、有效的"四步法"来收集并分析数据,非常利于初学者和实际工作人员抓住有统计方法和模型的本质。书中提供了多种多样的图示,如正态概率图、盒形图、散点图、矩阵图和残差图等,通过这些图,读者可以一方面理解数据的特点和概括数据的方法,--方面进一步理解有统计方法的基本思想和特点。作者很重视统计在解决实际问题中的作用,在全书中用许多篇幅讨论如何解释数据分析的结果,并专门用一章讲述了如何写数据分析报告。 本书适用于作为我国文科各专业的统计学引论教程。以及理工科各专业应用统计学课程的教材或教学参考书;也可作为有方面实际工作人员的统计入门书。阅读本书不需要其他统计方面的基础,也不需要高等数学知识。 目录: 序言 第一部分引论 第一章什么是统计 1.1引言 1.2为什么学习统计 1.3当前统计的一些应用 1.4统计学家做什么 1.5质量和工序改进 1.6学生注意 1.7小结 补充练习 第二部分收集数据 第二章利用调查和科学研究来收集数据- 2.1引言 2.2调查 2.3科学研究 2.4观察研究 2.5数据整理:为概括和分析准备数据 2.6小结 第三部分概括数据 3.1引言 3.2计算器、计算机及软件系统 3.3单个变量数据的描述:图表法 3.4单个变量数据的描述:中心趋势的度量 3.5单个变虽数据的描述:变异性度量 3.6盒形图 3.7多变量数据的概括 3.8小结 重要公式 补充练习 第四部分工具和概念 第四章概率和概率分布 4.1如何应用概率进行推断 4.2确定一个事件的概率 4.3基本的事件系和概率法则 4.4条件概率和独立性 4.5Bayes公式 4.6离散变最和连续变量 4.7离散随机变量的概率分布 4.8一个常用的离散随机变量:二项分布 4.9连续随机变量的概率分布 4.10一个常用的连续随机变量:正态分布 4.11随机抽样 4.12抽样分布 4.13二项分布的正态逼近 4.14Minitab指令 4.15小结 重要公式 补充练习 第五部分数据分析:中心值方差和比例 第五章于总体中心值的推断 5.1引言和案例 5.2μ的估计 5.3估计μ时样本容量的选取 5.4于μ的统计检验 5.5对于进行检验时样本容量的选取 5.6统计检验的显著性水十 5.7正态总体均值p的统计推断。未知 5.8于中位数的推断 5.9小结 重要公式 补充练习 第六章两总体中心值的比较 6.1引言和案例 6.2于μ1-μ2的推断:独立样本 6.3非参数推断方法:Wilcoxon秩和检验 6.4于μ1-μ2的推断:成对数据 6.5非参数推断方法:Wilcoxon符号秩检验 6.6惟断μ1-μ2时样本容量的选取 6.7小结 重要公式 补充练习 第七章于总体方差的推断 7.1引言和案例 7.2单个总体方差的估计和检验 7.3比较两个总体方差时的估计和检验 7.4比较多个总体方差时的检验 7.5小结 重要公式 补充练习 第八章两个以上总体的中心值的推断 8.1引言和案例 8.2两个以上总体均值的统计检验:方差分析 8.3完全随机化设计中观测值的模型 8.4方差分析条件的检查 8.5其他的分析方法:数据变换 8.6另一种非参数方法:Kruskal-Wallis检验 8.7小结 重要公式 补充练习 第九章多重比较 9.1引言和案例 9.2线性对照 9.3控制哪个错误率 9.4Fisher(费舍尔)最小显著差异法 9.5Tukey的W方法 9.6Student-Newman-Keuls方法 9.7Dunnett方法:处理组与对照组的比较 9.8Scheffe的S方法 9.9小结 重要公式 补充练习 第十章类型数据 10.1引言和案例 10.2总体比例π的推断 10.3两总体比例之差π1-π2的推断 10.4多比例的推断:卡方拟合优度检验 10.5Pokmn(泊松)分布- 10.6列联表:独立性检验和齐性检验 10.7柏程度的度量 10.8几率和优比 10.9小结 重要公式 补充练习 第六部分数据分析:回归方法和模型的建立 第十一章线性回归和相 11.1引言和案例 11.2估计模型中的参数 11.3回归参数的推断 11.4利用同归预测新的y值 11.5线性回归中拟合不足的考察 11.6逆回归问题(校准) 11.7相 11.8小结 重要公式 补充练习 第十二章多元回归与一般线性模型 12.1引言和案例 12.2一般线性模型 12.3估计多元回归系数 12.4多元回归中的推断 12.5回归系数子集的检验 12.6用多元回归进行的预测 12.7比较几条回归线的斜率 12.8Logistic回归 12.9多元回归的一些理论结果(任选) 12.10小结 重要公式 补充练习 第十三章多元回归续论 13.1引言和案例 13.2变量的挑选(第一步) I3.3模型形式的确定(第二步) 13.4模型假设的检查(第三步) 13.5小结 重要公式 补充练习 第七部分试验设计与方差分析 第十四章试验和研究的设计概念 14.1引言 14.2研究的类型 14.3设计的试验:术语 14.4控制试验误差 14.5试验单元对处理的随机化 14.6确定重复试验的次数 14.7小结 第十五章标准设计的方差分析 15.1引言和案例 15.2单因子的完全随机化设计 15.3随机化完全区组设计 15.4拉丁方设计 15.5完全随机化设计中的因子处理结构 15.6随机化完全区组设计中的因子处理结构 15.7处理差异的估计和处理均值的比较 15.8小结 重要公式 补充练习 第十六章协方差分析 16.1引言和案例 16.2具有一个协变量的完全随机化设计 16.3外推问题 16.4多维协变量和更复杂的设计 16.5小结 补充练习 第十七章一些固定效应、随机效应和混合效应模型的方差分析 17.1引言和案例 17.2具有随机处理效应的单因子试验:随机效应模型 17.3随机效应模型的扩充 17.4混合效应模型 17.5计算期望均方的规则 17.6套抽样和裂区设计 17.7小结 补充练习 第十八章重复测量与交叉设计 18.1引言和案例 18.2有重复观测的单因子试验 18.3一个因子有重复观测的两因子试验 18.4交叉设计 18.5小结 补充练习 第十九章一些非平衡设计的方差分析 19.1引言和案例 19.2有一个或多个缺失观察值的随机化区组设计 19.3有缺失数据的拉丁方设计 19.4平衡不完全区组(BIB)设计 19.5小结 重要公式 补充练习 第二十章分析结果的传达和备案 20.1引言 20.2做好传达沟通工作所面临的困难 20.3传达的障碍:图形的歪曲 20.4传达的障碍:有偏抽样 20.5传达的障碍:样本容量 20.6为统计分析准备数据 20.7统计分析的指导原则和报告 20.8文档和结果的保存 20.9小结 补充练习 附录统计表 参考文献 索引 译后记
数据数据挖掘与智慧运营 演讲人 2025-11-11 大数据数据挖掘与智慧运营全文共64页,当前为第1页。 1 大数据数据挖掘与智慧运营综述 01 Part One 大数据数据挖掘与智慧运营全文共64页,当前为第2页。 1 大数据数据挖掘与智慧运营综述 1.1 数据挖掘的发展史 1.2 数据挖掘的主要流程与金字塔模型 1.3 数据挖掘对智慧运营的意义 1.4 大数据时代已经来临 1.5 非结构化数据挖掘的研究进展 1.6 数据挖掘机器学习、深度学习、人工智能及云计算 大数据数据挖掘与智慧运营全文共64页,当前为第3页。 1 大数据数据挖掘与智慧运营综述 1.7 现有数据挖掘的主要分析软件与系统 大数据数据挖掘与智慧运营全文共64页,当前为第4页。 1 大数据数据挖掘与智慧运营综述 1.1 数据挖掘的发展史 1.1.1 数据挖掘的定义与起源 01 1.1.2 数据挖掘的早期发展 02 1.1.3 数据挖掘的算法前传 03 1.1.4 数据挖掘的第一个里程碑 04 1.1.5 最近十年的发展与应用 05 大数据数据挖掘与智慧运营全文共64页,当前为第5页。 1 大数据数据挖掘与智慧运营综述 1.2 数据挖掘的主要流程与金字塔模型 1.2.1 数据挖掘的任务 1.2.2 数据挖掘的基本步骤 1.2.3 数据挖掘的架构——云计算 1.2.4 "金字塔"模型 大数据数据挖掘与智慧运营全文共64页,当前为第6页。 LOGO M.94275.CN 1 大数据数据挖掘与智慧运营综述 1.3 数据挖掘对智慧运营的意义 01 1.3.1 "互联网+"时代的来临及其对运营商的冲击和挑战 02 1.3.2 大数据时代的来临及其对运营商的挑战和机遇 03 1.3.3 电信运营商运营发展面临的主要瓶颈 04 1.3.4 电信运营商发展的"三条曲线" 05 1.3.5 智慧运营与大数据变现 06 1.3.6 数据挖掘对于提升智慧运营效率的意义 大数据数据挖掘与智慧运营全文共64页,当前为第7页。 1.4 大数据时代已经来临 1 大数据数据挖掘与智慧运营综述 1.4.2 大数据的"4V"特征 1.4.1 大数据的定义 1.4.3 结构化数据与非结构化数据数据数据挖掘与智慧运营全文共64页,当前为第8页。 LOGO M.94275.CN 1 大数据数据挖掘与智慧运营综述 1.5 非结构化数据挖掘的研究进展 1.5.2 模式识别 02 1.5.4 视频识别 04 1.5.1 文本挖掘 01 1.5.3 语音识别 03 1.5.5 其他非结构化数据挖掘 05 大数据数据挖掘与智慧运营全文共64页,当前为第9页。 LOGO M.94275.CN 1 大数据数据挖掘与智慧运营综述 1.6 数据挖掘机器学习、深度学习、人工智能及云计算 1.6.1 机器学习 1.6.2 深度学习 1.6.4 云计算 1.6.3 人工智能 大数据数据挖掘与智慧运营全文共64页,当前为第10页。 LOGO M.94275.CN 1 大数据数据挖掘与智慧运营综述 1.7 现有数据挖掘的主要分析软件与系统 1.7.1 Hadoop 01 1.7.2 Storm 02 1.7.5 SAS 05 1.7.4 SPASS(SPSS) 04 1.7.3 Spark 03 大数据数据挖掘与智慧运营全文共64页,当前为第11页。 2 数据统计与数据预处理 02 Part One 大数据数据挖掘与智慧运营全文共64页,当前为第12页。 2 数据统计与数据预处理 2.1 数据属性类型 2.2 数据的统计特性 2.5 SPSS软件中的数据预处理案例 2.3 数据预处理 2.4 数据字段的衍生 大数据数据挖掘与智慧运营全文共64页,当前为第13页。 LOGO M.94275.CN 2 数据统计与数据预处理 2.1 数据属性类型 A B C 2.1.2 离散属性 2.1.3 连续属性 2.1.1 数据属性定义 大数据数据挖掘与智慧运营全文共64页,当前为第14页。 2.2 数据的统计特性 2 数据统计与数据预处理 C B A 2.2.1 中心趋势度量 2.2.2 数据散布度量 2.2.3 数据性 大数据数据挖掘与智慧运营全文共64页,当前为第15页。 2.3 数据预处理 2 数据统计与数据预处理 2.3.2 数据预处理的主要任务 02 2.3.5 数据规约 05 2.3.1 数据预处理概述 01 2.3.4 数据集成 04 2.3.3 数据清理 03 2.3.6 数据变换和离散化 06 大数据数据挖掘与智慧运营全文共64页,当前为第16页。 2.4 数据字段的衍生 2 数据统计与数据预处理 2.4.2 统计特征的构造 2.4.1 数据字段的拆分 2.

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Shining0596

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值