apple01010105-CSDN博客

转载使用github创建博客

本文主要介绍以下几个内容：1、使用githbu创建自己的博客2、将博客域名映射到自己的域名3、如果写博客一、使用github创建自己的博客具体可参考https://pages.github.com/1、在github上创建一个repository，名称为username.github.com的形式，如jinhong-lu.github.com2、下载github for...

2015-07-10 11:12:00 255

转载 trident教程

（一）理论基础更多理论以后再补充，或者参考书籍1、trident是什么？Trident is a high-level abstraction for doing realtime computing on top of Storm. It allows you to seamlessly intermix high throughput (millions of messages ...

2015-07-10 10:10:00 459

转载 storm-kafka教程

一、原理介绍本文内容参考：https://github.com/apache/storm/tree/master/external/storm-kafka#brokerhosts（一）使用storm-kafka的关键步骤1、创建ZkHosts当storm从kafka中读取某个topic的消息时，需要知道这个topic有多少个分区，以及这些分区放在哪个kafka节点(brok...

2015-07-10 10:09:00 241

转载 protocol buffer介绍(protobuf)

一、理论概述0、参考资料入门资料：https://developers.google.com/protocol-buffers/docs/javatutorial更详细的资料：For more detailed reference information, see the Protocol Buffer Language Guide, the Java API Reference, th...

2015-07-10 10:04:00 154

转载 kafka教程

一、理论介绍（一）相关资料1、官方资料，非常详细： http://kafka.apache.org/documentation.html#quickstart2、有一篇翻译版，基本一致，有些细节不同，建议入门时先读此文，再读官方文档。若自认英语很强，请忽视： http://www.linuxidc.com/Linux/2014-07/104470.htm3、还有一文也可以：htt...

2015-07-10 09:55:00 125

转载 storm教程

二、安装部署一、storm伪分布式安装（一）环境准备1、OS：debian 72、JDK 7.0（二）安装zookeeper1、下载zookeeper并解压wget http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.4.6/zookeeper-3.4.6.tar.gztar -zxvf zookeeper-3.4.6....

2015-07-10 09:52:00 107

转载 Linux小知识点汇总

1、crontab（1）crontab每10秒执行一次* * * * * /bin/date >>/tmp/date.txt* * * * * sleep 10; /bin/date >>/tmp/date.txt（2）还可以用以下方式表达stringmeaning------...

2015-07-10 09:29:00 114

转载 storm之8：并行度

（一）storm拓扑的并行度可以从以下4个维度进行设置：1、node（服务器）：指一个storm集群中的supervisor服务器数量。2、worker（jvm进程）：指整个拓扑中worker进程的总数量，这些数量会随机的平均分配到各个node。3、executor（线程）：指某个spout或者bolt的总线程数量，这些线程会被随机平均的分配到各个worker。4、task（spout/...

2015-06-17 11:23:00 132

转载将博客搬至CSDN

二者互备转载于:https://www.cnblogs.com/jinhong-lu/p/4566414.html

2015-06-10 16:23:00 35

转载 sqoop 1.4.4-cdh5.1.2快速入门

一、快速入门（一）下载安装1、下载并解压wget http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.4-cdh5.1.2.tar.gztar -zxvf sqoop-1.4.4-cdh5.1.2.tar.gz2、将sqoop中的命令添加至$PATH中export PATH=$PATH:/home/je...

2015-06-06 11:40:00 123

转载 hadoop的关键进程

hadoop集群中主要进程有master: NameNode, ResourceManager,slaves: DataNode, NodeManager, RunJar, MRAppMaster,YarnChild其中 RunJar, MRAppMaster,YarnChild与随着某个job的创建而创建，随着job的完成而终止。它们的作用分别是：...

2015-06-06 11:37:00 400

转载 HIVE快速入门

（一）简单入门1、创建一个表create table if not exists ljh_emp(name string,salary float,gender string)comment 'basic information of a employee'row format delimited fields terminated by ',’;...

2015-06-06 11:27:00 194

转载公钥，私钥和数字签名这样最好理解

一、公钥加密假设一下，我找了两个数字，一个是1，一个是2。我喜欢2这个数字，就保留起来，不告诉你们(私钥），然后我告诉大家，1是我的公钥。我有一个文件，不能让别人看，我就用1加密了。别人找到了这个文件，但是他不知道2就是解密的私钥啊，所以他解不开，只有我可以用数字2，就是我的私钥，来解密。这样我就可以保护数据了。我的好朋友x用我的公钥1加密了字符a，加密后成了b...

2015-05-06 16:25:00 72

转载 mysql快速入门

一、下载并解压$ wget http://cdn.mysql.com/Downloads/MySQL-5.5/MySQL-5.5.42-1.el6.x86_64.rpm-bundle.tar解压后得到以下几个文件：$ tar -xvf MySQL-5.5.42-1.el6.x86_64.rpm-bundle.tar MySQL-shared-5.5....

2015-04-28 14:31:00 80

转载 spark原理介绍

1、spark是一个基于内存计算的开源的集群计算系统，目的是让数据分析更加快速。因此运行spark的机器应该尽量的大内存，如96G以上。2、spark所有操作均基于RDD，操作主要分成2大类：transformation与action。3、spark提供了交互处理接口，类似于shell的使用。4、spark可以优化迭代工作负载，因为中间数据均保存于内存中。...

2015-04-28 12:33:00 230

转载 spark1.3.1使用基础教程

spark可以通过交互式命令行及编程两种方式来进行调用：前者支持scala与python后者支持scala、python与java本文参考https://spark.apache.org/docs/latest/quick-start.html，可作快速入门再详细资料及用法请见https://spark.apache.org/docs/latest...

2015-04-28 11:10:00 77

转载安装hadoop2.6.0伪分布式环境

集群环境搭建请见：http://blog.csdn.net/jediael_lu/article/details/45145767一、环境准备1、安装linux、jdk2、下载hadoop2.6.0，并解压3、配置免密码ssh（1）检查是否可以免密码： $ ssh localhost（2）若否：$ ssh-keygen -t dsa -P...

2015-04-27 18:59:00 58

转载安装spark1.3.1单机环境

本文介绍安装spark单机环境的方法，可用于测试及开发。主要分成以下4部分：（1）环境准备（2）安装scala（3）安装spark（4）验证安装情况1、环境准备（1）配套软件版本要求：Spark runs on Java 6+ and Python 2.6+. For the Scala API, Spark 1.3.1 uses Scala ...

2015-04-27 14:52:00 139

转载在sublime text 3中安装中文支持

1、安装package control使用control+~打开终端，然后输入以下内容并确定：import urllib.request,os;pf='Package Control.sublime-package';ipp=sublime.installed_packages_path();urllib.request.install_opener(url...

2015-04-24 22:04:00 163

转载搭建hadoop2.6.0集群环境

一、规划（一）硬件资源 10.171.29.191 master10.171.94.155 slave110.251.0.197 slave3（二）基本资料用户： jediael 目录：/mnt/jediael/ 二、环境配置（一）统一用户名密码，并为jediael赋予执行所有命令的权限 #passwd...

2015-04-20 07:21:00 83

转载在mac中导入hadoop2.6.0源代码至eclipse

一、环境准备1、安装jdk、maven等2、下载hadoop源代码，并解压3、将tools.jar复制到Classes中，具体原因见http://wiki.apache.org/hadoop/HowToSetupYourDevelopmentEnvironmentcd $JAVA_HOME mkdir Classes cp lib/tools.j...

2015-04-12 09:27:00 126

转载 Maven基础教程

更多内容请参考官方文档：http://maven.apache.org/guides/index.html 官方文档很详细，基本上可以查找到一切相关的内容。另外，快速入门可参考视频：孔浩的maven视频。一、快速入门（一）搭建环境1、下载maven，并将之解压或者直接使用yum 来安装2、配置环境变量export PATH=/home...

2015-04-10 22:53:00 76

转载 centos中的配置文件

/etc/profile:此文件为系统的每个用户设置环境信息,当用户第一次登录时,该文件被执行.并从/etc/profile.d目录的配置文件中搜集shell的设置./etc/bashrc:为每一个运行bash shell的用户执行此文件.当bash shell被打开时,该文件被读取.~/.bash_profile:每个用户都可使用该文件输入专用于自己使用的s...

2015-04-03 22:21:00 182

转载 Hbase写数据，存数据，读数据的详细过程

Client写入 -> 存入MemStore，一直到MemStore满 -> Flush成一个StoreFile，直至增长到一定阈值 -> 出发Compact合并操作 -> 多个StoreFile合并成一个StoreFile，同时进行版本合并和数据删除 -> 当StoreFiles Compact后，逐步形成越来越大的StoreFile -> ...

2015-03-15 20:11:00 271

转载 NoSql中的B-tree、B+tree和LSM-tree

总结：1、B+树将数据完全排序，读数据时很快，但当要修改数据时，就需要将新入数据下面的数据重新排位，特别是当写入的数据排在较高的位置时，需要大量的移位操作才能完成写入。2、SLM牺牲部分的读性能，从而提高写性能：将数据分散到多个有序列表中，每个列表保存一部分数据，这样读取数据时，就需要先查找在哪个有序列表，再从这个列表中读取具体数据，但是写的时候，受影响的数据就会减少，从...

2015-03-15 18:27:00 70

转载 JVM调优基础

一、JVM调优基本流程1、划分应用程序的系统需求优先级2、选择JVM部署模式：单JVM、多JVM3、选择JVM运行模式4、调优应用程序内存使用5、调优应用程序延迟6、调优应用程序吞吐量二、选择JVM部署模式：单JVM、多JVM1、单JVM优点：不需要管理多个JVM，降低管理成本；应用程序消耗内存数量较少缺点：存在单点故障，一个JV...

2015-03-14 09:33:00 163

转载如何在hadoop中控制map的个数

hadooop提供了一个设置map个数的参数mapred.map.tasks，我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数，并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值，最终map的个数，还取决于其他的因素。为了方便介绍，先来看几个名词：block_size : hdfs的文件块大小，默认为...

2015-03-13 20:53:00 51

转载 HBase -ROOT-和.META.表结构(region定位原理)

在HBase中，大部分的操作都是在RegionServer完成的，Client端想要插入，删除，查询数据都需要先找到相应的RegionServer。什么叫相应的RegionServer？就是管理你要操作的那个Region的RegionServer。Client本身并不知道哪个RegionServer管理哪个Region，那么它是如何找到相应的RegionServer的？本文就...

2015-03-13 20:52:00 90

转载 hadoop调优之一：概述

hadoop集群性能低下的常见原因（一）硬件环境1、CPU/内存不足，或未充分利用2、网络原因3、磁盘原因（二）map任务原因1、输入文件中小文件过多，导致多次启动和停止JVM进程。可以设置JVM重用。2、数据倾斜：大文件且不可分割，导致处理这些文件的map需要很长时间。3、数据本地化效果差。（三）reduce任务的原因1、reduce...

2015-03-13 20:51:00 39

转载 Injector Job深入分析

Injector Job的主要功能是根据crawlId在hbase中创建一个表，将将文本中的seed注入表中。（一）命令执行1、运行命令[jediael@master local]$ bin/nutch inject seeds/ -crawlId sourcetestInjectorJob: starting at 2015-03-10 14:59:19...

2015-03-10 15:44:00 143

转载分布式服务框架 Zookeeper -- 管理分布式环境中的数据

http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从...

2015-03-10 10:14:00 52

转载分类算法简介

一、决策树决策树是用于分类和预测的主要技术之一，决策树学习是以实例为基础的归纳学习算法，它着眼于从一组无次序、无规则的实例中推理出以决策树表示的分类规则。构造决策树的目的是找出属性和类别间的关系，用它来预测将来未知类别的记录的类别。它采用自顶向下的递归方式，在决策树的内部节点进行属性的比较，并根据不同属性值判断从该节点向下的分支，在决策树的叶节点得到结论。...

2015-03-09 11:08:00 385

转载 Mahout快速入门教程

Mahout 是一个很强大的数据挖掘工具，是一个分布式机器学习算法的集合，包括：被称为Taste的分布式协同过滤的实现、分类、聚类等。Mahout最大的优点就是基于hadoop实现，把很多以前运行于单机上的算法，转化为了MapReduce模式，这样大大提升了算法可处理的数据量和处理性能。一、Mahout安装、配置 1、下载并解压Mahouth...

2015-03-07 16:20:00 490

转载使用ganglia监控hadoop及hbase集群

介绍性内容来自：http://www.uml.org.cn/sjjm/201305171.asp一、Ganglia简介Ganglia 是 UC Berkeley 发起的一个开源监视项目，设计用于测量数以千计的节点。每台计算机都运行一个收集和发送度量数据（如处理器速度、内存使用量等）的名为 gmond 的守护进程。它将从操作系统和指定主机中收集。接收所有...

2015-03-06 20:53:00 91

转载 irms模拟数据生成及数据分析

一、数据准备1、每天生成随机一个文本，每小时向文本中追加2次数据，每次10万条随机数据生成：2,32 * * * * bash /mnt/jediael/irms/signalGenerator/signalGenerator.sh >> /home/jediael/sg.log 2>&1类：SignalGenerator...

2015-03-06 14:17:00 176

转载 crontab经验

1、基本格式第1列分钟1～59第2列小时1～23（0表示子夜）第3列日1～31第4列月1～12第5列星期0～6（0表示星期天）第6列要运行的命令2、关于日志（1）基本日志位于 /var/log/cron,但这个日志只能看任务是否有被运行。（2）关于运行脚本产生的日志，可以重定向到某个文件中，如：2,32 * * * *...

2015-03-06 11:17:00 55

转载 hprof教程

大部分内容参考http://www.linuxidc.com/Linux/2012-04/58178.htm J2SE中提供了一个简单的命令行工具来对java程序的cpu和heap进行 profiling，叫做HPROF。HPROF实际上是JVM中的一个native的库，它会在JVM启动的时候通过命令行参数来动态加载，并成为 JVM进程的一部分。要...

2015-03-02 12:18:00 1511

转载 hadoop容灾能力测试

实验简单来讲就是1. put 一个600M文件，分散3个replica x 9个block 共18个blocks到4个datanode2. 我关掉了两个datanode，使得大部分的block只在一个datanode上存在，但因为9个很分散，所以文件能正确取回（靠的是checksum来计算文件值）3. hadoop namenode很迅速的复制了仅有一个r...

2015-03-02 09:38:00 213

转载 Hadoop集群日常运维

（一）备份namenode的元数据namenode中的元数据非常重要，如丢失或者损坏，则整个系统无法使用。因此应该经常对元数据进行备份，最好是异地备份。1、将元数据复制到远程站点（1）以下代码将secondary namenode中的元数据复制到一个时间命名的目录下，然后通过scp命令远程发送到其它机器#!/bin/bashexport dirname=/m...

2015-03-01 21:26:00 668

转载 hadoop集群中的日志文件

hadoop存在多种日志文件，其中master上的日志文件记录全面信息，包括slave上的jobtracker与datanode也会将错误信息写到master中。而slave中的日志主要记录完成的task任务信息。默认情况下，hadoop日志保存在HADOOP_INSTALL/logs目录，但一般情况下建议重新指定路径，常用的是/var/log/hadoop，通过在hadoo...

2015-02-28 20:37:00 789

空空如也

空空如也