TKE_manman-CSDN博客

原创 eclipse创建maven工程连接大数据集群环境

eclipse创建maven工程连接大数据集群环境1.什么是maven：maven可以理解为代码仓库，maven是一个软件项目管理和综合工具。基于项目对象模型（POM）的概念，maven可以从一个中心资料片管理项目构建，报告和文件。一开始使用maven项目的时候，感觉会很方便，这个只需要配置pom.xml文件就可以自动下载所需要的jar包maven都会通过，项目名-项目模块-项目版本来ma...

2020-04-28 17:19:30 263

原创 MapReduce的WordCount在集群中的实现(eclipse)

MapReduce的WordCount在集群中的实现如何用eclipse编写java代码，连接到本地的虚拟机集群，实现wordcount这个经典的例子？1.创建一个maven工程，然后导入相关的pom依赖<repositories> <repository> <id>cloudera</id> ...

2020-04-28 17:02:43 296

Spark MLlib数据挖掘7–评估矩阵Spark MLlib附带了许多机器学习算法，可用于学习和预测数据。当这些算法应用于构建机器学习模型时，需要根据某些标准评估模型的性能。而为了对模型的性能进行评价，Spark MLlib还提供了一套度量标准，用于评估机器学习模型的性能，如分类模型评估和回归模型评估。分类模型评估分类算法有很多，但分类模型的评估都具有相似的原理。在监督分类问题中，存在每...

2020-04-28 16:34:20 392

原创 vSphere Replication--vSphere 复制

vSphere Replication–vSphere 复制一、关于replication（复制）：vSphere复制是vCenter Server的扩展。它提供基于管理程序的虚拟机复制和恢复。这里要提到一个概念：源站点和目的站点：在典型的vSphere Replication安装中，源站点提供了关键业务数据中心服务。目标站点是这些服务可迁移到的备用设施。源站点可以是vCente...

2020-04-28 16:32:12 4650

原创 Spark MLlib 数据挖掘6--关联规则与推荐算法

Spark MLlib 数据挖掘6–关联规则与推荐算法假设两个不相交的非空集合X、Y（X,Y可以理解为物品集），N为数据记录总数。支持度定义：support(X–>Y) =|X交Y|/N，表示物品集X和Y同时出现的次数占总记录数的比例。例如 support({啤酒}–>{尿布}) = 啤酒和尿布同时出现的次数/数据记录数 = 3/5=60%。频繁项集定义：满足最小支持度的项集。...

2020-04-13 16:02:27 925

原创 Spark MLlib 数据挖掘5--聚类与降维

Spark MLlib 数据挖掘5–聚类与降维聚类是一种无监督的学习问题，目标是基于一些相似概念将实体的子集彼此分组。聚类通常用于对未知数据进行打标分析，寻找数据之间的相似性和相异性，主要用于探索数据内部可能存在的统计性规律。一、KMeans算法KMeans算法的基本思想是初始随机给定K个簇中心，按照最邻近原则把待分析样本点分到各个簇。然后按平均法重新计算各个簇的簇心，从而确定为新的簇心。...

2020-04-13 16:01:24 422

原创 Spark MLlib数据挖掘4--分类与回归

Spark MLlib数据挖掘4–分类与回归一、分类与回归简介MLlib支持多种方法用来处理二分类，多分类以及回归分析，如下是MLlib能够支持的分类和回归的场景及对应的算法。二、线性模型模型回顾：损失函数回顾：数据挖掘中常用损失函数，用于最优化问题的求解。分类问题回顾：分类问题旨在将数据分为不同的类别。根据类别数量分为二分类和多分类问题。MLlib支持两个线性方法：线性支...

2020-04-05 19:28:40 593

原创 Spark MLlib数据挖掘3--特征提取和转换

Spark MLlib数据挖掘3–特征提取和转换一、TF-IDF回顾1.TF-IDF(Term frequency-inverse document frequency )TF-IDF是文本挖掘中一种广泛使用的特征向量化方法。TF-IDF反映了语料中单词对文档的重要程度。假设单词用t表示，F表示频度，文档用d表示，语料用D表示，那么文档频度DF(t, D)是包含单词t的文档数。如果仅使用词...

2020-04-03 21:41:34 369

原创 Spark MLlib数据挖掘2--基础统计分析

Spark MLlib数据挖掘2–基础统计分析一、Basic Statistics 简介Basic Statistic是Spark MLlib提供专门用于进行大数据集群上的统计分析工具。Basic Statistic为大数据集中数据预处理中数据的分析提供支撑方法，包括Summary statistics，Correlations，Stratified sampling，Hypothesis ...

2020-04-03 21:40:49 637

原创 Spark MLlib数据挖掘1--Spark MLlib概述和spark算子

Spark MLlib数据挖掘一、Spark MLlib概述MLlib是Spark的机器学习（Machine Learning）库，旨在简化机器学习的工程实践工作，并方便扩展到更大规模。MLlib由一些通用的学习算法和工具组成，包括分类、回归、聚类、协同过滤、降维等，同时还包括底层的优化原语和高层的管道API。1.Spark MLlib算法库Spark Mllib能够提供所有类型的机器学...

2020-04-02 20:03:43 1052

原创关于数据挖掘的综合应用

数据挖掘综合应用这里我们的主要任务是将我们学过的数据挖掘相关的知识点联系起来，能够掌握数据挖掘的一般流程之后，可以完成数据挖掘综合应用实验。一、数据挖掘流程1.数据挖掘流程的概述在实际的数据挖掘项目中，一般的流程如下：2.需求分析（1）业务理解：最初的阶段集中在理解项目目标和从业务的角度理解需求，同时将这个信息转化为数据挖掘问题的定义和完成项目的初步计划。（2）数据的获取和理解：数...

2020-03-31 20:25:26 1052

原创模型评估与优化3--正则化

模型评估与优化3–正则化1.奥卡姆剃刀原理:在所有能解释数据的模型中，越简单的越靠谱。但是在实际问题中为了拟合复杂的数据,不得不采用更复杂的模型。使用更复杂的模型通常会产生过拟合，而正则化就是常用的防止过拟合的工具之一。可以看做是模型优化的一种有效方法，通过限制参数过多或者过大来避免模型过于复杂。2.什么是正则化正则化又分为L1正则化和L2正则化。以多项式回归为例，我们的目标是最优化的最小二...

2020-03-30 21:36:24 328

原创模型评估与优化2--模型评估与选择

模型评估与优化2–模型评估与选择1.模型评估模型在训练集上的误差通常称为 “训练误差” 或 “经验误差”，而在新样本上的误差称为 “泛化误差”。显然，机器学习的目的是得到泛化误差小的学习器。然而，在实际应用中，新样本是未知的，所以只能使训练误差尽量小。所以，为了得到泛华误差小的模型并避免过拟合，在构建模型时，通常将数据集拆分为相互独立的训练数据集，验证数据集和测试数据集等。在训练过程中使用验...

2020-03-30 21:35:41 1669

原创模型评估与优化1--基本概念与最优化问题

模型评估与优化1–基本概念与最优化问题首先先看一下基本术语和概念1.数据集的划分（1）数据集(dataset)：在机器学习任务中使用的一组数据。数据集中每一个数据称为一个样本。反映样本在某方面的表现或性质的事项或属性称为特征。（2）训练集(training data)：训练过程中使用的数据集。数据集中每个训练样本称为训练样本。从数据中学得模型的过程称为学习（训练）。（3）测试集(tes...

2020-03-29 19:43:20 1877

原创虚拟机快照

虚拟机快照快照使您能够保留虚拟机的状态，以便您可以重复地返回到相同的状态。我们可以将快照理解成为是对虚拟机vmdk文件某一时间点的备份。当然这里的备份并不是真正意义上的备份，因为源文件其实并没有得到备份。我们可以将虚拟机恢复到某一时刻的快照，来实现系统的恢复，同时创建一个快照文件。注意：一旦源vmdk文件损坏，也就无法正常恢复了。捕获快照您可以在虚拟机处于开机、关机或挂起状态时进行快...

2020-03-28 20:57:18 2141

原创虚拟机迁移Sphere vMotion

虚拟机迁移Sphere vMotion什么是虚拟机迁移？迁移意味着将虚拟机从一个主机、数据存储或vCenter服务器系统迁移到另一个主机、数据存储或vCenter服务器系统。虚拟机迁移的五种类型1.冷迁移：将关闭电源的虚拟机迁移到新的主机或数据存储中。2.挂起：将挂起的虚拟机迁移到新的主机或数据存储。什么是挂起？挂起可以让虚拟机记录当前虚拟机的状态，下次恢复的时候恢复到挂起时的状...

2020-03-27 20:34:30 2641

原创无监督学习3--关联算法

无监督学习3–关联算法什么是关联规则？“A事件发生，B事件很可能也会发生。“提到关联规则，肯定会想到那个经典案例，尿布和啤酒。所谓关联规则就是有关联的规则，比如买了啤酒的同时也买尿布，｛啤酒｝–>｛尿布｝（X->Y）就是一条关联规则。这里有两个概念：支持度和置信度支持度(Support)：Support(A->B)=P(A U B)。支持度揭示了A与B同时出现的概率。...

2020-03-25 20:03:32 650

原创无监督学习2--基于层次和密度的聚类算法

无监督学习2–基于层次和模型的聚类算法上次的无监督学习1笔记中学习了基于基于原型的聚类算法。今天来记录基于层次的聚类算法和基于密度的聚类算法。一、基于层次的聚类算法层次聚类法试图在不同层次对数据集进行划分，从而形成树形的聚类结构，数据集的划分可采用“自下向上”的聚合策略，也可以采用“自顶向下”的分拆策略。聚类的层次被表示成树形图。树根拥有所有样本的唯一聚类，叶子是仅有一个样本的聚类。层次...

2020-03-24 19:52:25 717

原创无监督学习1--聚类算法

无监督学习1–聚类算法什么是无监督学习？无监督学习是指在未加标签的数据中，根据数据之间本身的属性特征和关联性对数据进行区分，相似相近或关联性强的数据放在一起，而不相似不相近、关联性不强的数据不放在一起。无监督学习的本质是：利用无标签的数据学习数据的分布或数据与数据之间的关系。无监督学习最常应用的场景是部分降维算法、聚类算法和关联算法。关于有监督学习和无监督学习在有监督学习中，例如分类问...

2020-03-23 20:06:19 2272

原创 Configuring and Managing Virtual Networks：配置和管理虚拟网络

Configuring and Managing Virtual Networks：配置和管理虚拟网络配置好虚拟网络是非常必要的。虚拟机必须能够与其他虚拟机和物理机进行通信。如果不能正确配置ESXi网络可能会对您的虚拟基础设施的操作产生负面影响。什么是标准交换机？首先提到一个概念就是虚拟交换机连接的类型。虚拟交换机提供同一主机或不同主机上的虚拟机之间的连接。虚拟交换机还支持用于远程主机管理的...

2020-03-21 20:57:22 563

原创关于HBase

关于HBase在准备大数据IE的面试过程中的总结！！什么是HBase？HBase是一个分布式的NoSQL数据库，其特点高可靠、高性能、面向列、可伸缩。HBase适合具有如下需求的应用：海量数据 (TB、PB) 。不需要完全拥有传统关系型数据库所具备的ACID特性。高吞吐量。需要在海量数据中实现高效的随机读取。需要很好的性能伸缩能力。能够同时处理结构化和非结构化的数据。HBas...

2020-03-19 21:55:18 263

原创关于kafka

关于kafka的相关特性最近在准备大数据HCIE的面试过程当中，在准备的时候总结一下每个组件的相关特性。首先简单介绍一下kafka：Kafka是一个高吞吐、分布式、基于发布订阅的消息系统。它最初由LinkedIn公司开发，使用Scala语言编写，之后成为Apache项目的一部分。Kafka是一个分布式的、可划分的、多订阅者、冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。它的集群...

2020-03-18 21:53:18 178

原创有监督学习3--朴素贝叶斯和SVM

有监督学习3–朴素贝叶斯和SVM接着上次的笔记来学习有监督学习，首先来看朴素贝叶斯是什么？什么是贝叶斯？提到贝叶斯这个名称，学过概率论的一定知道，在概率论与数理统计中有一个定理，就是叫做贝叶斯定理。贝叶斯定理由英国数学家贝叶斯 ( Thomas Bayes 1702-1761 ) 发展，用来描述两个条件概率之间的关系，比如 P(A|B) 和 P(B|A)。贝叶斯分类方法：假定X为类标号未...

2020-03-17 21:11:22 1998

原创有监督学习2--KNN和决策树

有监督学习2–KNN和决策树什么是KNN：KNN(K-Nearest Neighbor)就是k个最近的邻居的意思，即每个样本都可以用它最接近的k个邻居来代表。KNN常用来处理分类问题，但也可以用来处理回归问题。核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。相似度的衡量标准一般为距离，即距离越近相似度越高，距...

2020-03-16 21:05:06 1376

原创有监督学习1--线性回归

有监督学习1–线性回归对于有监督学习首先要理解几个概念：有监督学习的预备知识：什么是机器学习：机器学习主要是研究如何使计算机从给定的数据中学习规律，即从观测数据（样本）中寻找规律，并利用学习到的规律（模型）对位置或无法观测的数据进行预测。所谓“学习”是指：针对经验E(experience)和一系列的任务T(tasks)和一定表现的衡量P，如果随着经验E的积累，针对定义好的任务T可以提高表...

2020-03-15 21:26:09 2641

原创 vCenter Server---vCenter Server设备

vCenter Server—vCenter Server设备关于vCenter Server：之前的笔记中简单介绍过，vCenter Server是一个管理平台。vCenter Server是一种服务，充当ESXi主机及其在网络上连接的虚拟机的中心管理点：在Windows或基于Linux的设备上运行指导虚拟机和主机的操作关系图如下：vCenter Server的支持组件：1.v...

2020-03-13 21:14:08 1303

原创如何安装esxi创建虚机

如何安装ESXi创建虚机ESXi是vSphere中的核心组件，是一个监控管理程序。如何安装esxi环境？1.在VMware Workstation中新建一个虚拟机1.1选择典型；1.2选择稍后安装；1.3选择操作系统类型；1.4选择磁盘容量，这里最好选择单个磁盘文件；1.5选择镜像文件；1.6开机，等待安装，看到如下的界面等待进度条完成即可；1.7选择continue...

2020-03-12 21:50:46 398

原创特征选择与降维2--降维

特征选择与降维2–降维什么是降维？降维是通过获得一组基本上是重要特征的主变量来减少所考虑的特征变量的过程。现实应用中属性维度成千上万，在高维度情况下会带来很多麻烦，而且当维度大的时候，数据样本一般分布的非常稀疏，这是所有学习算法要面对的问题，降维技术应运而生。降维是对事物的特征进行压缩和筛选，该项任务相对比较抽象。如果没有特定领域知识，无法预先决定采用哪些数据，比如在人脸识别任务中，如果直接...

2020-03-10 21:13:48 2193

原创特征选择与降维1--特征选择

特征选择与降维1–特征选择什么是特征？特征其实就是之前我在数据挖掘中提到的属性，在特征选择中叫做特征。所以特征和属性两种说法一直是等同的，之所以出现不同的说法，源自不同出处或者翻译版本，已经逐步成为一种约定俗成。如特征选择说法，不再强调也是属性选择；如后续学习到的决策树算法有属性度量概念，不再适宜叫特征度量。在数据挖掘的技术中，等同概念不同叫法的情况会经常出现，与这是一门汇聚多专业、来源且仍...

2020-03-09 21:10:42 1223

原创数据预处理2--特征处理

数据预处理2–特征处理首先进行特征处理是非常必要的，那么什么是特征处理？特征工程是通过对原始数据处理和加工，将原始数据的属性转换为数据特征的过程。特征工程涵盖很多方面，其中较重要的部分是特征处理和特征选择。特征处理通常包含以下四种：特征缩放数值离散化特征编码时间数值转换一、特征缩放1.进行特征缩放的必要性：在实际业务中，当数据的量纲不同，数量级别差距大时，会影响最终的数据模型，...

2020-03-08 16:31:22 2242

原创关于ESXi--特性和主机创建

关于ESXi–特性和主机创建上次的笔记提到了ESXi是vSphere的核心组件，是一个虚拟化服务器，或者虚拟化监视器。ESXi是一个管理程序，具有下列功能：1.高安全性：基于主机的防火墙内存强化内核模块完整性可信平台模块UEFI安全引导锁定模式2.磁盘占用空间小3.可安装在硬盘、SAN lun、USB设备、SD卡、SATADOM、SSD和无盘主机上一、Virtual Arc...

2020-03-06 20:41:03 4319

原创 vSphere and Virtual Machines--vSphere和虚机

理论学习1：vSphere and Virtual Machines–vSphere和虚机在进行正式的学习之前，首先了解一个概念：什么是vSphere？什么是vSphere：VMware vSphere不是特定的产品或软件。VMware vSphere是整个VMware套件的商业名称。就好像华为的产品是FusionInsight系列一样。VMware vSphere堆栈包括虚拟化，管理和...

2020-03-05 22:25:09 698

原创数据预处理1--ETL和数据清洗

数据预处理学习1–ETL和数据清洗第一个问题，什么是数据预处理？数据预处理，英文全称是：data preprocessing，顾名思义就是指在进行对主要的数据进行处理以前对数据进行的一些处理数据预处理分为：缺失值处理、异常值处理、特征缩放、数值离散化和不平衡数据处理数据预处理的重要性：在数据挖掘过程中，数据预处理是不可或缺的部分。大数据应用中数据的典型特点是独立的、不完整、含噪声和不...

2020-03-04 21:43:19 8124 1

原创数据可视化和Python数据可视化工具matplotlib

补充：数据可视化和Python数据可视化工具matplotlib上次的笔记记录了数据采集与爬虫相关的知识，这次的笔记是对上次的笔记的补充，记录了与数据可视化相关的内容和关于python的数据可视化工具。首先需要提到一个问题，什么是数据可视化？举个例子，如果有一篇1000字的文章，翻来覆去都在描述两种事物之间的关系。读者对于这种长篇的文章是非常容易觉得枯燥乏味读不下去，但是如果把这段文章转换成...

2020-03-03 20:50:16 1076

原创数据采集--爬虫的应用

数据采集–爬虫大数据的数据采集是一个重要的步骤，那么爬虫是一个工具可以帮助我们爬取网站中的数据，爬虫的主要作用就是可以帮助我们爬取想要获取的历史数据。什么事爬虫？爬虫可以帮助我们在互联网上自动的获取我们所需要的数据和信息。爬虫的本质是一段程序。因为需要爬取的网站下有可能会套一层另外的一个网站，他是一层一层的去爬的。所以爬虫又被称为网页蜘蛛，网络机器人。爬虫可以根据用途分为两类：聚焦爬虫：...

2020-03-01 18:58:45 1402

原创大数据学习--预备知识：数学基础

数学知识回顾一、线性代数二、概率论及数理统计三、信息熵和基尼系数四、最优化一二两部分是对之前的数学知识的复习，后面两部分是大数据中涉及到的新的知识。一、线性代数：1.线性代数：1.1行列式是一个将方阵映射到一个标量的函数，记作det(A)或|A|。行列式也可以看作是有向面积或体积在一般欧几里得空间的推广。或者说是在n维欧几里得空间中，行列式描述的是一个线性变换对“体积”所造成的影响...

2020-02-29 19:59:10 1276 1

原创数据挖掘学习2--数据和数据挖掘工具

数据挖掘学习2–数据和数据挖掘工具上次笔记我记录了什么是数据挖掘和数据挖掘的流程，那么这次的笔记要记录一下数据挖掘工具。但是在学习数据挖掘工具之前，还有几个概念必须要理解。1.数据，属性这里有三个概念：数据对象，数据属性和数据集什么是数据对象？样本、实例、数据点或对象。如果以数据库为例：数据对象就是以数据元组的形式存在于数据库中的，在数据库中以行的形式进行存储什么是数据属性？属性是...

2020-02-28 14:51:17 411

原创 Python基础

Python基础Python是时下最流行的编程语言之一，在诸多领域都有着广泛的应用。目前Python的主流版本有Python2和Python3两个，在这里我们使用Python3来进行学习。目录：一、python的基本语法二、python的基本数据类型三、条件语句四、循环语句五、函数六、文件七、python常用模块一、基本语法1.Python用缩进划分语句块，缩进为四个空格或...

2020-02-28 14:15:11 272

原创数据挖掘学习1--数据挖掘流程

数据挖掘学习1–数据挖掘流程首先什么是数据挖掘？举个例子来理解：你和你的同事同时去一家银行办信用卡，办卡之后银行的客服总是给你的同事打电话推荐新出的理财产品，基本不会给你打电话。为什么会出现这样的情况呢？你的同事平时更关注基金，国债等理财产品，所以银行在它的信息库中会经过一系列的分析操作，最后决定经常给你的同时打电话推荐理财产品。在这个过程当中，数据挖掘占据了比重比较大的一部分。数据挖掘是...

2020-02-27 18:30:28 2909

空空如也

空空如也