TKE_manman
码龄5年
关注
提问 私信
  • 博客:63,503
    63,503
    总访问量
  • 39
    原创
  • 1,420,506
    排名
  • 265
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2019-11-05
博客简介:

qiaoqiaomanman的博客

查看详细资料
个人成就
  • 获得28次点赞
  • 内容获得2次评论
  • 获得187次收藏
创作历程
  • 39篇
    2020年
成就勋章
TA的专栏
  • 大数据学习
    28篇
  • VMware学习
    7篇
  • python
    1篇
  • 大数据预备知识
兴趣领域 设置
  • 大数据
    hadoop
创作活动更多

如何做好一份技术文档?

无论你是技术大神还是初涉此领域的新手,都欢迎分享你的宝贵经验、独到见解与创新方法,为技术传播之路点亮明灯!

182人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

eclipse创建maven工程连接大数据集群环境

eclipse创建maven工程连接大数据集群环境1.什么是maven:maven可以理解为代码仓库,maven是一个软件项目管理和综合工具。基于项目对象模型(POM)的概念,maven可以从一个中心资料片管理项目构建,报告和文件。一开始使用maven项目的时候,感觉会很方便,这个只需要配置pom.xml文件就可以自动下载所需要的jar包maven都会通过,项目名-项目模块-项目版本来ma...
原创
发布博客 2020.04.28 ·
308 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MapReduce的WordCount在集群中的实现(eclipse)

MapReduce的WordCount在集群中的实现如何用eclipse编写java代码,连接到本地的虚拟机集群,实现wordcount这个经典的例子?1.创建一个maven工程,然后导入相关的pom依赖<repositories> <repository> <id>cloudera</id> ...
原创
发布博客 2020.04.28 ·
346 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Spark MLlib数据挖掘7--评估矩阵

Spark MLlib数据挖掘7–评估矩阵Spark MLlib附带了许多机器学习算法,可用于学习和预测数据。当这些算法应用于构建机器学习模型时,需要根据某些标准评估模型的性能。而为了对模型的性能进行评价,Spark MLlib还提供了一套度量标准,用于评估机器学习模型的性能,如分类模型评估和回归模型评估。分类模型评估分类算法有很多,但分类模型的评估都具有相似的原理。在监督分类问题中,存在每...
原创
发布博客 2020.04.28 ·
436 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

vSphere Replication--vSphere 复制

vSphere Replication–vSphere 复制一、关于replication(复制):vSphere复制是vCenter Server的扩展。它提供基于管理程序的虚拟机复制和恢复。这里要提到一个概念:源站点和目的站点:在典型的vSphere Replication安装中, 源站点提供了关键业务数据中心服务。目标站点是这些服务可迁移到的备用设施。源站点可以是vCente...
原创
发布博客 2020.04.28 ·
4734 阅读 ·
2 点赞 ·
0 评论 ·
12 收藏

Spark MLlib 数据挖掘6--关联规则与推荐算法

Spark MLlib 数据挖掘6–关联规则与推荐算法假设两个不相交的非空集合X、Y(X,Y可以理解为物品集),N为数据记录总数。支持度定义:support(X–>Y) =|X交Y|/N,表示物品集X和Y同时出现的次数占总记录数的比例。例如 support({啤酒}–>{尿布}) = 啤酒和尿布同时出现的次数/数据记录数 = 3/5=60%。频繁项集定义:满足最小支持度的项集。...
原创
发布博客 2020.04.13 ·
1021 阅读 ·
0 点赞 ·
0 评论 ·
6 收藏

Spark MLlib 数据挖掘5--聚类与降维

Spark MLlib 数据挖掘5–聚类与降维聚类是一种无监督的学习问题,目标是基于一些相似概念将实体的子集彼此分组。聚类通常用于对未知数据进行打标分析,寻找数据之间的相似性和相异性,主要用于探索数据内部可能存在的统计性规律。一、KMeans算法KMeans算法的基本思想是初始随机给定K个簇中心,按照最邻近原则把待分析样本点分到各个簇。然后按平均法重新计算各个簇的簇心,从而确定为新的簇心。...
原创
发布博客 2020.04.13 ·
465 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Spark MLlib数据挖掘4--分类与回归

Spark MLlib数据挖掘4–分类与回归一、分类与回归简介MLlib支持多种方法用来处理二分类,多分类以及回归分析,如下是MLlib能够支持的分类和回归的场景及对应的算法。二、线性模型模型回顾:损失函数回顾:数据挖掘中常用损失函数,用于最优化问题的求解。分类问题回顾:分类问题旨在将数据分为不同的类别。根据类别数量分为二分类和多分类问题。MLlib支持两个线性方法:线性支...
原创
发布博客 2020.04.05 ·
633 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

Spark MLlib数据挖掘3--特征提取和转换

Spark MLlib数据挖掘3–特征提取和转换一、TF-IDF回顾1.TF-IDF(Term frequency-inverse document frequency )TF-IDF是文本挖掘中一种广泛使用的特征向量化方法。TF-IDF反映了语料中单词对文档的重要程度。假设单词用t表示,F表示频度,文档用d表示,语料用D表示,那么文档频度DF(t, D)是包含单词t的文档数。如果仅使用词...
原创
发布博客 2020.04.03 ·
427 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Spark MLlib数据挖掘2--基础统计分析

Spark MLlib数据挖掘2–基础统计分析一、Basic Statistics 简介Basic Statistic是Spark MLlib提供专门用于进行大数据集群上的统计分析工具。Basic Statistic为大数据集中数据预处理中数据的分析提供支撑方法,包括Summary statistics,Correlations,Stratified sampling,Hypothesis ...
原创
发布博客 2020.04.03 ·
671 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Spark MLlib数据挖掘1--Spark MLlib概述和spark算子

Spark MLlib数据挖掘一、Spark MLlib概述MLlib是Spark的机器学习(Machine Learning)库,旨在简化机器学习的工程实践工作,并方便扩展到更大规模。MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道API。1.Spark MLlib算法库Spark Mllib能够提供所有类型的机器学...
原创
发布博客 2020.04.02 ·
1107 阅读 ·
0 点赞 ·
0 评论 ·
7 收藏

关于数据挖掘的综合应用

数据挖掘综合应用这里我们的主要任务是将我们学过的数据挖掘相关的知识点联系起来,能够掌握数据挖掘的一般流程之后,可以完成数据挖掘综合应用实验。一、数据挖掘流程1.数据挖掘流程的概述在实际的数据挖掘项目中,一般的流程如下:2.需求分析(1)业务理解:最初的阶段集中在理解项目目标和从业务的角度理解需求,同时将这个信息转化为数据挖掘问题的定义和完成项目的初步计划。(2)数据的获取和理解:数...
原创
发布博客 2020.03.31 ·
1093 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

模型评估与优化3--正则化

模型评估与优化3–正则化1.奥卡姆剃刀原理:在所有能解释数据的模型中,越简单的越靠谱。但是在实际问题中为了拟合复杂的数据,不得不采用更复杂的模型。使用更复杂的模型通常会产生过拟合,而正则化就是常用的防止过拟合的工具之一。可以看做是模型优化的一种有效方法,通过限制参数过多或者过大来避免模型过于复杂。2.什么是正则化正则化又分为L1正则化和L2正则化。以多项式回归为例,我们的目标是最优化的最小二...
原创
发布博客 2020.03.30 ·
359 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

模型评估与优化2--模型评估与选择

模型评估与优化2–模型评估与选择1.模型评估模型在训练集上的误差通常称为 “训练误差” 或 “经验误差”,而在新样本上的误差称为 “泛化误差”。显然,机器学习的目的是得到泛化误差小的学习器。然而,在实际应用中,新样本是未知的,所以只能使训练误差尽量小。所以,为了得到泛华误差小的模型并避免过拟合,在构建模型时,通常将数据集拆分为相互独立的训练数据集,验证数据集和测试数据集等。在训练过程中使用验...
原创
发布博客 2020.03.30 ·
1758 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

模型评估与优化1--基本概念与最优化问题

模型评估与优化1–基本概念与最优化问题首先先看一下基本术语和概念1.数据集的划分(1)数据集(dataset):在机器学习任务中使用的一组数据。数据集中每一个数据称为一个样本。反映样本在某方面的表现或性质的事项或属性称为特征。(2)训练集(training data):训练过程中使用的数据集。数据集中每个训练样本称为训练样本。从数据中学得模型的过程称为学习 (训练)。(3)测试集(tes...
原创
发布博客 2020.03.29 ·
1967 阅读 ·
1 点赞 ·
0 评论 ·
6 收藏

虚拟机快照

虚拟机快照快照使您能够保留虚拟机的状态,以便您可以重复地返回到相同的状态。我们可以将快照理解成为是对虚拟机vmdk文件某一时间点的备份。当然这里的备份并不是真正意义上的备份,因为源文件其实并没有得到备份。我们可以将虚拟机恢复到某一时刻的快照,来实现系统的恢复,同时创建一个快照文件。注意:一旦源vmdk文件损坏,也就无法正常恢复了。捕获快照您可以在虚拟机处于开机、关机或挂起状态时进行快...
原创
发布博客 2020.03.28 ·
2281 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

虚拟机迁移Sphere vMotion

虚拟机迁移Sphere vMotion什么是虚拟机迁移?迁移意味着将虚拟机从一个主机、数据存储或vCenter服务器系统迁移到另一个主机、数据存储或vCenter服务器系统。虚拟机迁移的五种类型1.冷迁移:将关闭电源的虚拟机迁移到新的主机或数据存储中。2.挂起:将挂起的虚拟机迁移到新的主机或数据存储。什么是挂起?挂起可以让虚拟机记录当前虚拟机的状态,下次恢复的时候恢复到挂起时的状...
原创
发布博客 2020.03.27 ·
2750 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

无监督学习3--关联算法

无监督学习3–关联算法什么是关联规则?“A事件发生,B事件很可能也会发生。“提到关联规则,肯定会想到那个经典案例,尿布和啤酒。所谓关联规则就是有关联的规则,比如买了啤酒的同时也买尿布,{啤酒}–>{尿布}(X->Y)就是一条关联规则。这里有两个概念:支持度和置信度支持度(Support):Support(A->B)=P(A U B)。支持度揭示了A与B同时出现的概率。...
原创
发布博客 2020.03.25 ·
697 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

无监督学习2--基于层次和密度的聚类算法

无监督学习2–基于层次和模型的聚类算法上次的无监督学习1笔记中学习了基于基于原型的聚类算法。今天来记录基于层次的聚类算法和基于密度的聚类算法。一、基于层次的聚类算法层次聚类法试图在不同层次对数据集进行划分,从而形成树形的聚类结构,数据集的划分可采用“自下向上”的聚合策略,也可以采用“自顶向下”的分拆策略。聚类的层次被表示成树形图。树根拥有所有样本的唯一聚类,叶子是仅有一个样本的聚类。层次...
原创
发布博客 2020.03.24 ·
755 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

无监督学习1--聚类算法

无监督学习1–聚类算法什么是无监督学习?无监督学习是指在未加标签的数据中,根据数据之间本身的属性特征和关联性对数据进行区分,相似相近或关联性强的数据放在一起,而不相似不相近、关联性不强的数据不放在一起。无监督学习的本质是:利用无标签的数据学习数据的分布或数据与数据之间的关系。无监督学习最常应用的场景是部分降维算法、聚类算法和关联算法。关于有监督学习和无监督学习在有监督学习中,例如分类问...
原创
发布博客 2020.03.23 ·
2356 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Configuring and Managing Virtual Networks:配置和管理虚拟网络

Configuring and Managing Virtual Networks:配置和管理虚拟网络配置好虚拟网络是非常必要的。虚拟机必须能够与其他虚拟机和物理机进行通信。如果不能正确配置ESXi网络可能会对您的虚拟基础设施的操作产生负面影响。什么是标准交换机?首先提到一个概念就是虚拟交换机连接的类型。虚拟交换机提供同一主机或不同主机上的虚拟机之间的连接。虚拟交换机还支持用于远程主机管理的...
原创
发布博客 2020.03.21 ·
623 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多