自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(277)
  • 收藏
  • 关注

转载 使用github创建博客

本文主要介绍以下几个内容:1、使用githbu创建自己的博客2、将博客域名映射到自己的域名3、如果写博客一、使用github创建自己的博客具体可参考https://pages.github.com/1、在github上创建一个repository,名称为username.github.com的形式,如jinhong-lu.github.com2、下载github for...

2015-07-10 11:12:00 255

转载 trident教程

(一)理论基础更多理论以后再补充,或者参考书籍1、trident是什么?Trident is a high-level abstraction for doing realtime computing on top of Storm. It allows you to seamlessly intermix high throughput (millions of messages ...

2015-07-10 10:10:00 459

转载 storm-kafka教程

一、原理介绍本文内容参考:https://github.com/apache/storm/tree/master/external/storm-kafka#brokerhosts(一)使用storm-kafka的关键步骤1、创建ZkHosts当storm从kafka中读取某个topic的消息时,需要知道这个topic有多少个分区,以及这些分区放在哪个kafka节点(brok...

2015-07-10 10:09:00 241

转载 protocol buffer介绍(protobuf)

一、理论概述0、参考资料入门资料:https://developers.google.com/protocol-buffers/docs/javatutorial更详细的资料:For more detailed reference information, see the Protocol Buffer Language Guide, the Java API Reference, th...

2015-07-10 10:04:00 154

转载 kafka教程

一、理论介绍(一)相关资料1、官方资料,非常详细: http://kafka.apache.org/documentation.html#quickstart2、有一篇翻译版,基本一致,有些细节不同,建议入门时先读此文,再读官方文档。若自认英语很强,请忽视: http://www.linuxidc.com/Linux/2014-07/104470.htm3、还有一文也可以:htt...

2015-07-10 09:55:00 125

转载 storm教程

二、安装部署一、storm伪分布式安装(一)环境准备1、OS:debian 72、JDK 7.0(二)安装zookeeper1、下载zookeeper并解压wget http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.4.6/zookeeper-3.4.6.tar.gztar -zxvf zookeeper-3.4.6....

2015-07-10 09:52:00 107

转载 Linux小知识点汇总

1、crontab(1)crontab每10秒执行一次* * * * * /bin/date >>/tmp/date.txt* * * * * sleep 10; /bin/date >>/tmp/date.txt(2)还可以用以下方式表达stringmeaning------...

2015-07-10 09:29:00 114

转载 storm之8:并行度

(一)storm拓扑的并行度可以从以下4个维度进行设置:1、node(服务器):指一个storm集群中的supervisor服务器数量。2、worker(jvm进程):指整个拓扑中worker进程的总数量,这些数量会随机的平均分配到各个node。3、executor(线程):指某个spout或者bolt的总线程数量,这些线程会被随机平均的分配到各个worker。4、task(spout/...

2015-06-17 11:23:00 132

转载 将博客搬至CSDN

二者互备转载于:https://www.cnblogs.com/jinhong-lu/p/4566414.html

2015-06-10 16:23:00 35

转载 sqoop 1.4.4-cdh5.1.2快速入门

一、快速入门(一)下载安装1、下载并解压wget http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.4-cdh5.1.2.tar.gztar -zxvf sqoop-1.4.4-cdh5.1.2.tar.gz2、将sqoop中的命令添加至$PATH中export PATH=$PATH:/home/je...

2015-06-06 11:40:00 123

转载 hadoop的关键进程

hadoop集群中主要进程有master: NameNode, ResourceManager,slaves: DataNode, NodeManager, RunJar, MRAppMaster,YarnChild其中 RunJar, MRAppMaster,YarnChild与随着某个job的创建而创建,随着job的完成而终止。它们的作用分别是:...

2015-06-06 11:37:00 400

转载 HIVE快速入门

(一)简单入门1、创建一个表create table if not exists ljh_emp(name string,salary float,gender string)comment 'basic information of a employee'row format delimited fields terminated by ',’;...

2015-06-06 11:27:00 194

转载 公钥,私钥和数字签名这样最好理解

一、公钥加密 假设一下,我找了两个数字,一个是1,一个是2。我喜欢2这个数字,就保留起来,不告诉你们(私钥),然后我告诉大家,1是我的公钥。我有一个文件,不能让别人看,我就用1加密了。别人找到了这个文件,但是他不知道2就是解密的私钥啊,所以他解不开,只有我可以用数字2,就是我的私钥,来解密。这样我就可以保护数据了。我的好朋友x用我的公钥1加密了字符a,加密后成了b...

2015-05-06 16:25:00 72

转载 mysql快速入门

一、下载并解压$ wget http://cdn.mysql.com/Downloads/MySQL-5.5/MySQL-5.5.42-1.el6.x86_64.rpm-bundle.tar解压后得到以下几个文件:$ tar -xvf MySQL-5.5.42-1.el6.x86_64.rpm-bundle.tar MySQL-shared-5.5....

2015-04-28 14:31:00 80

转载 spark原理介绍

1、spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。因此运行spark的机器应该尽量的大内存,如96G以上。2、spark所有操作均基于RDD,操作主要分成2大类:transformation与action。3、spark提供了交互处理接口,类似于shell的使用。4、spark可以优化迭代工作负载,因为中间数据均保存于内存中。...

2015-04-28 12:33:00 230

转载 spark1.3.1使用基础教程

spark可以通过交互式命令行及编程两种方式来进行调用:前者支持scala与python后者支持scala、python与java本文参考https://spark.apache.org/docs/latest/quick-start.html,可作快速入门再详细资料及用法请见https://spark.apache.org/docs/latest...

2015-04-28 11:10:00 77

转载 安装hadoop2.6.0伪分布式环境

集群环境搭建请见:http://blog.csdn.net/jediael_lu/article/details/45145767一、环境准备1、安装linux、jdk2、下载hadoop2.6.0,并解压3、配置免密码ssh(1)检查是否可以免密码: $ ssh localhost(2)若否:$ ssh-keygen -t dsa -P...

2015-04-27 18:59:00 58

转载 安装spark1.3.1单机环境

本文介绍安装spark单机环境的方法,可用于测试及开发。主要分成以下4部分:(1)环境准备(2)安装scala(3)安装spark(4)验证安装情况1、环境准备(1)配套软件版本要求:Spark runs on Java 6+ and Python 2.6+. For the Scala API, Spark 1.3.1 uses Scala ...

2015-04-27 14:52:00 139

转载 在sublime text 3中安装中文支持

1、安装package control使用control+~打开终端,然后输入以下内容并确定:import urllib.request,os;pf='Package Control.sublime-package';ipp=sublime.installed_packages_path();urllib.request.install_opener(url...

2015-04-24 22:04:00 163

转载 搭建hadoop2.6.0集群环境

一、规划 (一)硬件资源 10.171.29.191 master10.171.94.155 slave110.251.0.197 slave3(二)基本资料 用户: jediael 目录:/mnt/jediael/ 二、环境配置 (一)统一用户名密码,并为jediael赋予执行所有命令的权限 #passwd...

2015-04-20 07:21:00 83

转载 在mac中导入hadoop2.6.0源代码至eclipse

一、环境准备1、安装jdk、maven等2、下载hadoop源代码,并解压3、将tools.jar复制到Classes中,具体原因见http://wiki.apache.org/hadoop/HowToSetupYourDevelopmentEnvironmentcd $JAVA_HOME mkdir Classes cp lib/tools.j...

2015-04-12 09:27:00 126

转载 Maven基础教程

更多内容请参考官方文档:http://maven.apache.org/guides/index.html 官方文档很详细,基本上可以查找到一切相关的内容。另外,快速入门可参考视频:孔浩的maven视频。一、快速入门(一)搭建环境1、下载maven,并将之解压或者直接使用yum 来安装2、配置环境变量export PATH=/home...

2015-04-10 22:53:00 76

转载 centos中的配置文件

/etc/profile:此文件为系统的每个用户设置环境信息,当用户第一次登录时,该文件被执行.并从/etc/profile.d目录的配置文件中搜集shell的设置./etc/bashrc:为每一个运行bash shell的用户执行此文件.当bash shell被打开时,该文件被读取.~/.bash_profile:每个用户都可使用该文件输入专用于自己使用的s...

2015-04-03 22:21:00 182

转载 Hbase写数据,存数据,读数据的详细过程

Client写入 -> 存入MemStore,一直到MemStore满 -> Flush成一个StoreFile,直至增长到一定阈值 -> 出发Compact合并操作 -> 多个StoreFile合并成一个StoreFile,同时进行版本合并和数据删除 -> 当StoreFiles Compact后,逐步形成越来越大的StoreFile -> ...

2015-03-15 20:11:00 271

转载 NoSql中的B-tree、B+tree和LSM-tree

总结:1、B+树将数据完全排序,读数据时很快,但当要修改数据时,就需要将新入数据下面的数据重新排位,特别是当写入的数据排在较高的位置时,需要大量的移位操作才能完成写入。2、SLM牺牲部分的读性能,从而提高写性能:将数据分散到多个有序列表中,每个列表保存一部分数据,这样读取数据时,就需要先查找在哪个有序列表,再从这个列表中读取具体数据,但是写的时候,受影响的数据就会减少,从...

2015-03-15 18:27:00 70

转载 JVM调优基础

一、JVM调优基本流程1、划分应用程序的系统需求优先级2、选择JVM部署模式:单JVM、多JVM3、选择JVM运行模式4、调优应用程序内存使用5、调优应用程序延迟6、调优应用程序吞吐量二、选择JVM部署模式:单JVM、多JVM1、单JVM优点:不需要管理多个JVM,降低管理成本; 应用程序消耗内存数量较少缺点:存在单点故障,一个JV...

2015-03-14 09:33:00 163

转载 如何在hadoop中控制map的个数

hadooop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数,并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值,最终map的个数,还取决于其他的因素。 为了方便介绍,先来看几个名词:block_size : hdfs的文件块大小,默认为...

2015-03-13 20:53:00 51

转载 HBase -ROOT-和.META.表结构(region定位原理)

在HBase中,大部分的操作都是在RegionServer完成的,Client端想要插入,删除,查询数据都需要先找到相应的RegionServer。什么叫相应的RegionServer?就是管理你要操作的那个Region的RegionServer。Client本身并不知道哪个RegionServer管理哪个Region,那么它是如何找到相应的RegionServer的?本文就...

2015-03-13 20:52:00 90

转载 hadoop调优之一:概述

hadoop集群性能低下的常见原因(一)硬件环境1、CPU/内存不足,或未充分利用2、网络原因3、磁盘原因(二)map任务原因1、输入文件中小文件过多,导致多次启动和停止JVM进程。可以设置JVM重用。2、数据倾斜:大文件且不可分割,导致处理这些文件的map需要很长时间。3、数据本地化效果差。(三)reduce任务的原因1、reduce...

2015-03-13 20:51:00 39

转载 Injector Job深入分析

Injector Job的主要功能是根据crawlId在hbase中创建一个表,将将文本中的seed注入表中。(一)命令执行1、运行命令[jediael@master local]$ bin/nutch inject seeds/ -crawlId sourcetestInjectorJob: starting at 2015-03-10 14:59:19...

2015-03-10 15:44:00 143

转载 分布式服务框架 Zookeeper -- 管理分布式环境中的数据

http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础,最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取,Zookeeper 的安装非常简单,下面将从...

2015-03-10 10:14:00 52

转载 分类算法简介

一、决策树 决策树是用于分类和预测的主要技术之一,决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的实例中 推理出以决策树表示的分类规则。构造决策树的目的是找出属性和类别间的关系,用它来预测将来未知类别的记录的类别。它采用自顶向下的递归方式,在决策树的 内部节点进行属性的比较,并根据不同属性值判断从该节点向下的分支,在决策树的叶节点得到结论。...

2015-03-09 11:08:00 385

转载 Mahout快速入门教程

Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现、分类、聚类等。Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和处理性能。一、Mahout安装、配置 1、下载并解压Mahouth...

2015-03-07 16:20:00 490

转载 使用ganglia监控hadoop及hbase集群

介绍性内容来自:http://www.uml.org.cn/sjjm/201305171.asp一、Ganglia简介Ganglia 是 UC Berkeley 发起的一个开源监视项目,设计用于测量数以千计的节点。每台计算机都运行一个收集和发送度量数据(如处理器速度、内存使用量等)的名为 gmond 的守护进程。它将从操作系统和指定主机中收集。接收所有...

2015-03-06 20:53:00 91

转载 irms模拟数据生成及数据分析

一、数据准备1、每天生成随机一个文本,每小时向文本中追加2次数据,每次10万条随机数据生成:2,32 * * * * bash /mnt/jediael/irms/signalGenerator/signalGenerator.sh >> /home/jediael/sg.log 2>&1类:SignalGenerator...

2015-03-06 14:17:00 176

转载 crontab经验

1、基本格式第1列分钟1~59第2列小时1~23(0表示子夜)第3列日1~31第4列月1~12第5列星期0~6(0表示星期天)第6列要运行的命令2、关于日志(1)基本日志位于 /var/log/cron,但这个日志只能看任务是否有被运行。(2)关于运行脚本产生的日志,可以重定向到某个文件中,如:2,32 * * * *...

2015-03-06 11:17:00 55

转载 hprof教程

大部分内容参考http://www.linuxidc.com/Linux/2012-04/58178.htm J2SE中提供了一个简单的命令行工具来对java程序的cpu和heap进行 profiling,叫做HPROF。HPROF实际上是JVM中的一个native的库,它会在JVM启动的时候通过命令行参数来动态加载,并成为 JVM进程的一部分。 要...

2015-03-02 12:18:00 1511

转载 hadoop容灾能力测试

实验简单来讲就是1. put 一个600M文件,分散3个replica x 9个block 共18个blocks到4个datanode2. 我关掉了两个datanode,使得大部分的block只在一个datanode上存在,但因为9个很分散,所以文件能正确取回(靠的是checksum来计算文件值)3. hadoop namenode很迅速的复制了仅有一个r...

2015-03-02 09:38:00 213

转载 Hadoop集群日常运维

(一)备份namenode的元数据namenode中的元数据非常重要,如丢失或者损坏,则整个系统无法使用。因此应该经常对元数据进行备份,最好是异地备份。1、将元数据复制到远程站点(1)以下代码将secondary namenode中的元数据复制到一个时间命名的目录下,然后通过scp命令远程发送到其它机器#!/bin/bashexport dirname=/m...

2015-03-01 21:26:00 668

转载 hadoop集群中的日志文件

hadoop存在多种日志文件,其中master上的日志文件记录全面信息,包括slave上的jobtracker与datanode也会将错误信息写到master中。而slave中的日志主要记录完成的task任务信息。默认情况下,hadoop日志保存在HADOOP_INSTALL/logs目录,但一般情况下建议重新指定路径,常用的是/var/log/hadoop,通过在hadoo...

2015-02-28 20:37:00 789

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除