自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

摩西YF拉比

技术的一步步前进!

  • 博客(25)
  • 收藏
  • 关注

转载 Ganglia分布式安装

1 Ganglia简介  Ganglia 是 UC Berkeley 发起的一个开源监视项目,设计用于测量数以千计的节点。每台计算机都运行一个收集和发送度量数据(如处理器速度、内存使用量等)的名为 gmond 的守护进程。它将从操作系统和指定主机中收集。接收所有度量数据的主机可以显示这些数据并且可以将这些数据的精简表单传递到层次结构中。正因为有这种层次结构模式,才使得 Ganglia 可以

2016-09-24 10:29:26 457

转载 Ganglia 分布式配置

关于对分布式文件系统的监控,主要分为两个部分:机器性能相关的监控 和 系统运行状态 的监控。机器性能相关的监控:这个比较泛化,也比较成熟,主要是对CPU、内存、网络、磁盘I/O等信息的监控,我们没必要重复造轮子,可以选择比较方便强大的开源工具来搭建,这里我们选择Ganglia;系统运行状态的监控:这个与不同的文件系统相关,虽然不同DFS也有一些共性的内容,比如账户、日志、请求量等,

2016-09-23 22:15:03 590

转载 Ganglia配置安装

1、环境ubuntu14.04操作系统2、在 Ubuntu14.04 上安装 Ganglia 。打开终端(Ctrl+Alt+T),输入以下命令:sudo apt-get install ganglia-monitor rrdtool gmetad ganglia-webfrontend 开始的时候,我的电脑不能正常安装,报了一些错误,后来我根据终端上给出

2016-09-23 16:53:09 379

转载 将hive数据库中的TBLS表导出到HDFS之上

需求:将hive数据库中的TBLS表导出到HDFS之上; $SQOOP2_HOME/bin/sqoop.sh client sqoop:000> set server --host hadoop000 --port 12000 --webapp sqoopServer is set successfully创建connection:sqoop:000>

2016-09-22 17:34:27 778

转载 sqoop(2)

一、sqoop客户端sqoop2客户端提供各种命令行交互接口,供用户使用。sqoop2客户端先连接Sqoop Server,将参数传递过去,再调用mapreduce进行数据导入到出作业。以下是sqoop2中比较重要的几个对象。(1)connector:sqoop2中预定一了各种里链接,这些链接是一些配置模板,比如最基本的generic-jdbc-connector,还有hdfs-c

2016-09-22 17:28:23 2040 1

转载 Sqoop1.99.7安装配置

一、环境描述Apache Hadoop2.6.4Sqoop1.99.7Kali2 Linux 系统,基于Debian,Ubuntu也差不多。MySQL server 5.5.49-0+deb8u1(Debian)再提一下MySQL的JDBC驱动:直接上官网下的connection/J:mysql-connector-java-5.1.39-bin.jar,也

2016-09-22 17:11:02 925

转载 hbase表读取数据存到hbase表

import java.io.IOException;import java.util.List; import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil;import

2016-09-22 15:43:49 1121

转载 从hbase读取内容到hdfs文件上

import java.io.IOException;import java.util.Date;import java.util.List; import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hb

2016-09-22 15:42:46 2150

转载 从hdfs读取文件存到hbase

import java.io.IOException; import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.

2016-09-22 15:42:04 1423

转载 WordCount 到 Hdfs

import java.io.IOException; import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWri

2016-09-22 15:41:09 341

转载 Sqoop介绍

一简介Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。二特点Sqoop中一大亮点就是可以通过hadoop的mapreduce把数据从关系型数据库中导入数据到HDFS。三 Sqo

2016-09-22 15:14:01 323

转载 ID3和C4.5的区别和联系

ID3算法是决策树的一个经典的构造算法,在一段时期内曾是同类研究工作的比较对象,但通过近些年国内外学者的研究,ID3算法也暴露出一些问题,具体如下:    (1)信息增益的计算依赖于特征数目较多的特征,而属性取值最多的属性并不一定最优。    (2)ID3是非递增算法。    (3)ID3是单变量决策树(在分枝节点上只考虑单个属性),许多复杂概念的表达困难,属性相互关系强调不够,容易导

2016-09-20 20:10:34 3610

转载 ID3 算法案例

本文使用的Python库包括numpypandasmathoperatormatplotlib本文所用的数据如下:                  Idx色泽根蒂敲声纹理脐部触感               密度           含糖率              label1青绿蜷缩浊响

2016-09-20 19:50:46 2813 1

转载 ID3

摘要: 决策树是对数据进行分类,以此达到预测的目的。该决策树方法先根据训练集数据形成决策树,如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到训练集数据中,重复该过程一直到形成正确的决策集。决策树代表着决策集的树形结构。先上问题吧,我们统计了14天的气象数据(指标包括outlook,temperature,humidity,windy),并已知这些天气是否打球(play)

2016-09-20 19:33:58 356

转载 Storm 的一个案例

本章要阐述一个典型的网络分析解决方案,而这类问题通常利用Hadoop批处理作为解决方案。与Hadoop不同的是,基于Storm的方案会实时输出结果。  我们的这个例子有三个主要组件(见图6-1)一个基于Node.js的web应用,用于测试系统一个Redis服务器,用于持久化数据一个Storm拓扑,用于分布式实时处理数据图6-1  架构概览

2016-09-20 17:16:14 842

转载 HDFS 上的数据导入到Hbase

需求:将HDFS上的文件中的数据导入到hbase中实现上面的需求也有两种办法,一种是自定义mr,一种是使用hbase提供好的import工具一、hdfs中的数据是这样的每一行的数据是这样的id name age gender birthday(my_python_env)[root@hadoop26 ~]# hadoop fs -cat /t1/*1 zhangsan

2016-09-19 16:29:11 8307

转载 机器学习中相似度度量(2)

在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚 类算法,如 K 最近邻(KNN)和 K 均值(K-Means)等等。根据数据特性的不同,可以采用不同的度量方法。一般而言,定义一个距离函数 d(x,y), 需要满足下面几个准则:1) d(x,x)=0  // 到自己的距离为0 2) 0

2016-09-18 09:39:13 4304

转载 机器学习中的相似度度量(1)

 在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。  本文的目的就是对常用的相似性度量作一个总结。本文目录:1. 欧氏距离2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5. 标

2016-09-18 09:37:58 902

转载 spark流数据处理:Spark Streaming的使用

本文讲解Spark流数据处理之Spark Streaming。本文的写作时值Spark 1.6.2发布之际,Spark 2.0预览版也已发布,Spark发展如此迅速,请随时关注Spark Streaming官方文档以了解最新信息。文中对Spark Streaming的讲解主要使用到Scala语言,其他语言请参考官方文档,这点请知晓。概述Spark Streaming是Spark

2016-09-18 09:33:26 6183

转载 机器学习中的各种距离

1. 欧氏距离2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5. 标准化欧氏距离6. 马氏距离7. 夹角余弦8. 汉明距离9. 杰卡德距离 & 杰卡德相似系数10. 相关系数 & 相关距离11. 信息熵============================================================

2016-09-13 19:28:57 2459

转载 【Spark】RDD操作详解3——键值型Transformation算子

Transformation处理的数据为Key-Value形式的算子大致可以分为:输入分区与输出分区一对一、聚集、连接操作。输入分区与输出分区一对一mapValuesmapValues:针对(Key,Value)型数据中的Value进行Map操作,而不对Key进行处理。方框代表RDD分区。a=>a+2代表只对( V1, 1)数据中的1进行加2操作,返回结果为3。源码:

2016-09-12 16:48:18 360

转载 【Spark】RDD操作详解2——值型Transformation算子

【Spark】RDD操作详解2——值型Transformation算子处理数据类型为Value型的Transformation算子可以根据RDD变换算子的输入分区与输出分区关系分为以下几种类型:1)输入分区与输出分区一对一型 2)输入分区与输出分区多对一型 3)输入分区与输出分区多对多型 4)输出分区为输入分区子集型 5)还有一种特殊的输入与输出分区一对一的

2016-09-12 16:18:36 597 1

转载 【Spark】RDD操作详解1——Transformation和Actions概况

Spark算子的作用下图描述了Spark在运行转换中通过算子对RDD进行转换。 算子是RDD中定义的函数,可以对RDD中的数据进行转换和操作。输入:在Spark程序运行中,数据从外部数据空间(如分布式存储:textFile读取HDFS等,parallelize方法输入Scala集合或数据)输入Spark,数据进入Spark运行时数据空间,转化为Spark中的数据块,通过BlockM

2016-09-12 16:14:01 580

转载 Storm0.8.1的(mapreduce) Spout/Blot编程实例实例详解

问题导读:1.storm中Topology是什么?2.storm中Topology与Spout、Bolot的关系是什么?3.storm的编程大致包含几个步骤?4.storm通过哪个类读取hdfs数据?5.Bolt类的作用是什么?1.编程模型我们知道hadoop有mapreduce编程模型,那么与之对应的storm的编程模型是什么那,下

2016-09-10 11:41:38 1080

转载 Java中的static关键字解析

  static关键字是很多朋友在编写代码和阅读代码时碰到的比较难以理解的一个关键字,也是各大公司的面试官喜欢在面试时问到的知识点之一。下面就先讲述一下static关键字的用法和平常容易误解的地方,最后列举了一些面试笔试中常见的关于static的考题。以下是本文的目录大纲:  一.static关键字的用途  二.static关键字的误区  三.常见的笔试面试题  若

2016-09-09 08:18:16 183

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除