
大数据
文章平均质量分 96
liaomin416100569
这个作者很懒,什么都没留下…
展开
-
机器学习实战教程(六):决策树
易于理解和解释。决策树可以可视化。几乎不需要数据预处理。其他方法经常需要数据标准化,创建虚拟变量和删除缺失值。决策树还不支持缺失值。使用树的花费(例如预测数据)是训练数据点(data points)数量的对数。可以同时处理数值变量和分类变量。其他方法大都适用于分析一种变量的集合。可以处理多值输出变量问题。使用白盒模型。如果一个情况被观察到,使用逻辑判断容易表示这种规则。相反,如果是黑盒模型(例如人工神经网络),结果会非常难解释。即使对真实模型来说,假设无效的情况下,也可以较好的适用。原创 2023-02-19 11:19:29 · 3241 阅读 · 0 评论 -
机器学习实战教程(⑤):使用PCA实战人脸降维
在互联网大数据场景下,我们经常需要面对高维数据,在对这些数据做分析和可视化的时候,我们通常会面对「高维」这个障碍。在数据挖掘和建模的过程中,高维数据也同样带来大的计算量,占据更多的资源,而且许多变量之间可能存在相关性,从而增加了分析与建模的复杂性。我们希望找到一种方法,在对数据完成降维「压缩」的同时,尽量减少信息损失。由于各变量之间存在一定的相关关系,因此可以考虑将关系紧密的变量变成尽可能少的新变量,使这些新变量是两两不相关的,那么就可以用较少的综合指标分别代表存在于各个变量中的各类信息。原创 2023-02-07 17:49:43 · 2314 阅读 · 0 评论 -
机器学习实战教程(四):从特征分解到协方差矩阵:详细剖析和实现PCA算法
回想概率统计里面关于方差的数学定义:协方差的数学定义异曲同工:这里的 x和y表示两个变量空间。用机器学习的话讲,就是样本有 x和 y两种特征,而 X 就是包含所有样本的 x特征的集合,Y就是包含所有样本的 y特征的集合。用一个例子来解释会更加形象。用一个矩阵表示为:现在,我们用两个变量空间X ,Y 来表示这两个特征:原创 2023-02-03 16:27:19 · 2907 阅读 · 0 评论 -
离线数据同步平台datax+报表可视化平台metabase
dataxDataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。特点DataX本身作为数据同步框架,将不同数据源的同步抽象为从源头数据源读取数据的Reader插件,以及向目标端写入数据的Writer插件,理论上DataX框架可以支持任意数据源类型的数据同步工作。同时D原创 2021-04-09 15:28:54 · 6968 阅读 · 0 评论 -
hadoop记录篇13-spark计算引擎
文章目录简介集群模式ComponentCluster Manager TypesSubmitting ApplicationsMonitoringJob SchedulingGlossaryRDD编程向导预览导入依赖初始化sparkResilient Distributed Datasets (RDDs)Parallelized Collections (并行集合)External Datasets(外部数据集)RDD操作常用Transformations转换常用Actions动作helloworld简介原创 2021-04-07 16:43:33 · 405 阅读 · 0 评论 -
hadoop记录篇5-eclipse开发mapreduce
一。 MAP REDUCE执行原理 MapReduce主要分为三个阶段 Map阶段 Shuffle阶段 Reduce阶段 1》Map阶段:Hadoop Map/Reduce框架为每一个InputSplit产生一个map任务,而每个InputSplit是由该作业的InputFormat产生的。1》InputSplit的大小算法通过查看FileInputFormat原创 2017-10-27 12:46:07 · 523 阅读 · 0 评论 -
hadoop记录篇12-storm流式计算
文章目录1.storm集群架构2.storm逻辑概念Topologies(拓扑)Streams(流)SpoutsBoltsStream groupingsTasksWorkers3.storm入门实例项目创建定义WordReaderSpout定义WordSplitBolt定义WordCountBolt定义main本地集群运行生产集群运行4.storm其他应用场景1.storm集群架构Apache Storm的主要亮点是,它是一个容错,快速,没有“单点故障”(SPOF)分布式应用程序。我们可以根据需要在多原创 2021-04-01 16:40:08 · 505 阅读 · 5 评论