自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 离线搭建CDH5,ClouderaManager

安装JDK(所有节点)省略   创建统一账号:useradd  hadooppasswd  hadoop   关闭防火墙service iptables stop   统一时间:date -s "2014-9-10 15:11:00"hwclock --systohc service ntpd startchkconfig ntpd on vi /etc/sysconfig/s...

2014-09-11 11:04:07 97

原创 ZooKeeper-- 管理分布式环境中的数据

1.随着分布式应用的不断深入,需要对集群管理逐步透明化。监控集群和作业状态;可以充分的利用ZK的独有特性,熟悉程度决定应用高度 2.Service端具有fast fail特性,非常健壮,无单点,不超过半数Server挂掉不会影响提供服务 3.zookeeper名字空间由节点znode构成,其组织方式类似于文件系统,其各个节点相当于目录和文件,通过路径作为唯一标示。与文件系统不同的是,每个节...

2014-09-06 15:00:55 106

原创 数据结构学习笔记

1.衡量算法的标准:时间复杂度:大概程序执行的次数,而非执行的时间空间复杂度:算法执行过程中大概所占用的最大内存难易程度健壮性   2.int *p  //p是个指针变量,int *表示该P变量只能存储int类型变量的地址   3.地址:内存单元的编号,内存是可以被cpu直接访问的,内存的编号是不能重复的,内存的基本划分单位是字节   CPU--地址线(可以确定对哪个地址进行操作)控...

2014-08-06 22:36:36 108

原创 R语言学习笔记

今天看了一下R语言,感觉挺难的因为没有统计学和数据的功底,看着函数有些吃力。学习的过程是痛苦的,还是坚持着吧~今天把自己的学习笔记贴上来,后续应该会继续更新此文章。   1.一旦某一变量服从正态分布,就可以使用对用的统计学原理来预测不确定性变量的预测估计及其范围,并可以给出改预测值得可信度 2.网站分析的主要目的通过量化指标来衡量网站解决用户需求的能力,主线分为3个阶段: 1)有多少方...

2014-08-05 14:56:57 137

原创 Spark安装部署

 spark单节点local安装:  1.解压包: scala-2.10.4.tgz scala-intellij-bin-0.38.437.zip spark-0.9.1-bin-hadoop1.tgz 2.配置/etc/profile 3.直接输入scala如果进入scala界面表示安装成功 4.如果是集群就要配置/etc/hosts 5.到spark/conf下面配置sp...

2014-08-04 23:09:20 86

原创 Hbase shell

下面我们看看HBase Shell的一些基本操作命令,我列出了几个常用的HBase Shell命令,如下:   名称 命令表达式 创建表 create '表名称', '列名称1','列名称2','列名称N' 添加记录       put '表名称', '行名称', '列名称:', '值' 查看记录 ...

2014-07-21 16:47:31 74

原创 使用java连接hive,并执行hive语句详解

安装hadoop 和 hive我就不多说了,网上太多文章 自己看去 首先,在机器上打开hiveservice   不多说,直接上代码 package asia.wildfire.hive.service; import java.sql.*; import java.sql.Date; import java.text.SimpleDateFormat; import ja...

2014-07-20 22:24:02 193

原创 python也就这点事

1.解释性&编译性,面相对象,简单,高级语言,无需考虑诸如内存一类的底层可扩展以及可潜入性,免费开源,可移植性--各个系统。丰富的库。“胶水语言” 2.python源代码以py为扩展名,由python程序解释,不需要编译 3.python XXX.py不管他有没有执行权限都会执行chmod +x XXX.py赋权限,  执行:./XXX.py(必须写上文件的路径#!/usr/pyt...

2014-07-20 22:17:55 101

原创 hive调优

一、    控制hive任务中的map数: 1.    通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2.    举例: a)    假设input目录下有1个文件a,大小为78...

2014-07-18 18:10:32 58

原创 Hadoop添加删除节点

添加节点 1.修改host   和普通的datanode一样。添加namenode的ip 2.修改namenode的配置文件conf/slaves   添加新增节点的ip或host 3.在新节点的机器上,启动服务 [root@slave-004 hadoop]# ./bin/hadoop-daemon.sh start datanode[root@slave-004 hadoop]# ...

2014-07-18 14:02:30 75

原创 Hive

Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的...

2014-07-18 13:12:50 81

原创 Hadoop常用命令

笔者所用的版本是hadoop-2.2.0 1、列出所有Hadoop Shell支持的命令  $ bin/hdfs fs -help 2、显示关于某个命令的详细信息  $ bin/hdfs dfs -help ls(查看ls命令的详细信息) 3、 格式化一个新的分布式文件系统:  $ bin/hdfs namenode -format 4、 将zkstop.sh文件放入到hadoop集群...

2014-07-15 10:03:43 84

原创 MySql优化

要想掌握数据库的优化首先要知道数据库的事务性吧?这是最基础的!!! (1) 原子性 ? 事务的原子性指的是,事务中包含的程序作为数据库的逻辑工作单位,它所做的对数据修改操作要么全部执行,要么完全不执行。这种特性称为原子性。 (2) 一致性? 事务的一致性指的是在一个事务执行之前和执行之后数据库都必须处于一致性状态。这种特性称为事务的一致性。假如数据库的状态满足所有的完整性约束,就说该数据库...

2014-07-14 23:35:44 109

原创 我的常用Linux命令

1.pstree显示所有的进程树 2.内部命令帮助:help echo 外部命令:ls --help  man ls 其中/-a表示要查找的参数。n键代表下一个查找的意思。shift+n代表上一个。 3.vi的时候/-a也是可以查找的  触类旁通的 4.man 1 2 3 4 5 6 7 8个帮助级别  info ls也是查找   q是退出,就是多了一个连接的功能5.ps -f命令显...

2014-07-12 20:21:18 106

原创 Storm分布式实时计算框架

Storm 1. 信息流处理{Stream processing} Storm可用来实时处理新数据和更新数据库,兼具容错性和可扩展性。 2. 连续计算{Continuous computation} Storm可进行连续查询并把结果即时反馈给客户端。比如把Twitter上的热门话题发送到浏览器中。 3. 分布式远程程序调用{Distributed RPC} Storm可用来并行处理密集查询。S...

2014-07-11 11:59:19 186

原创 MapReduce的工作机制

MapReduce作业的运行过程包含4个独立的实体: 1)Client:提交MapReduce作业.(2)JobTracker:协调作业的运行。(3)TaskTracker:运行作业划分后的Map任务或Reduce任务。(4)Shared FileSystem(一般为HDFS),用来在其他实体间共享作业文件。     1.作业的提交 Job的waitForCompletion(tru...

2014-07-10 15:32:32 181

原创 配置Zookeeper注意事项

配置zookeeper必须注意以下几点不然容易出错: 1.必须记得配上myid文件 2.必须关闭防火墙service iptables stop 3.必须要3台以上的机器。否则只有启动zookeeper的机器上有进程--->16683 QuorumPeerMain 2014-07-09 19:32:18,649 [myid:] - WARN [main:QuorumPeerCo...

2014-07-10 10:38:11 147

原创 SSH免秘钥登入

ssh配置   主机A:10.0.5.199 主机B:10.0.5.198  需要配置主机A无密码登录主机A,主机B 先确保所有主机的防火墙处于关闭状态。 在主机A上执行如下:  1. $cd ~/.ssh  2. $ssh-keygen -t rsa  --------------------然后一直按回车键,就会按照默认的选项将生成的密钥保存在.ssh/id_rsa文件中。 ...

2014-07-09 17:31:33 92

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除