- 博客(344)
- 资源 (2)
- 收藏
- 关注
原创 【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析
1.Mahout环境搭建 1.下载Mahouthttp://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量vim /etc/profileexport HADOOP_HOME=/home/hadoop/software/h...
2015-05-23 10:57:06
153
原创 【Hadoop十四】Hadoop提供的脚本的功能
1. hadoop-daemon.sh1.1 启动HDFS./hadoop-daemon.sh start namenode./hadoop-daemon.sh start datanode 通过这种逐步启动的方式,比start-all.sh方式少了一个SecondaryNameNode进程,这不影响Hadoop的使用,其实在 Hadoop2.0中,SecondaryNameN...
2015-05-09 15:13:41
110
原创 【日志分析】日志分析工具
1. 网站日志实时分析工具 GoAccesshttp://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J)http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/3.log.io...
2015-05-06 11:47:03
207
原创 【Spark九十五】Spark Shell操作Spark SQL
在Spark Shell上,通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shellSpark assembly has been built with Hive, including Datanucleus jars on classpathWelcome to ...
2015-04-30 18:55:36
502
原创 【Spark九十四】spark-sql工具的使用
spark-sql是Spark bin目录下的一个可执行脚本,它的目的是通过这个脚本执行Hive的命令,即原来通过hive>输入的指令可以通过spark-sql>输入的指令来完成。spark-sql可以使用内置的Hive metadata-store,也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark1...
2015-04-30 18:09:15
583
原创 【Nginx六】nginx.conf常用指令(Directive)
1. worker_processes 8;表示Nginx将启动8个工作者进程,通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process ...
2015-04-24 18:45:17
183
原创 【Nginx五】Nginx常用日志格式含义
1. log_format1.1 log_format指令用于指定日志的格式,格式: log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式: log_format main '[$time_local]|$request_time|$status|$body_bytes_sent|$remote...
2015-04-24 17:24:57
677
原创 【Hadoop十三】HDFS Java API基本操作
package com.examples.hadoop;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FileStatus;import org.apache.hadoop.f...
2015-04-24 14:38:02
165
原创 【Hadoop十二】HDFS常用命令
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xmlcat edits.xml 修改日志文件转储为xml格式的edits.xml文件,其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 [hadoop@hado...
2015-04-23 14:45:55
141
原创 【HBase十三】HBase知识点总结
1. 数据从MemStore flush到磁盘的触发条件有哪些? a.显式调用flush,比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量,hbase.hregion.memstore.flush.size,默认值是64M2. Region的构成是怎么样?1个Region由若干个Store组成,每个Store对应表的一个Col...
2015-04-16 14:34:48
250
原创 【HBase十二】HFile存储的是一个列族的数据
在HBase中,每个HFile存储的是一个表中一个列族的数据,也就是说,当一个表中有多个列簇时,针对每个列簇插入数据,最后产生的数据是多个HFile,每个对应一个列族,通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*50*50条数据,然后flu...
2015-04-16 13:51:19
1530
原创 【Spark九十三】Spark读写Sequence File
1. 代码:package spark.examples.fileformatimport org.apache.spark.{SparkConf, SparkContext}object SequenceFileTest { def main(args: Array[String]) { val conf = new SparkConf() ...
2015-04-15 18:45:27
1041
原创 【Spark九十二】Spark SQL操作Parquet格式的数据
1.关于Spark SQL操作Parquet因为Parquet文件中包含了Schema信息,也就是说,Parquet文件是Schema自解释的,因此Spark SQL操作Parquet时,不需要指定Schema,因为Spark SQL可以根据Parquet文件中的Schema信息,解析出Parquet文件对应的SQL Schema本文中的idAndName.parquet内容如下:从中...
2015-04-14 18:49:13
1401
原创 【Hive十四】Hive读写Parquet格式的数据
1. 原始数据hive> select * from word; OK1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建保存为parquet格式的数据表 hive> CREATE TABLE parquet_table(age INT, name STRING)STORED AS PARQUET;...
2015-04-14 18:02:51
4863
原创 【Hive十三】Hive读写Avro格式的数据
1. 原始数据hive> select * from word; OK1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORED AS AVRO; 3. 数据表...
2015-04-14 17:25:15
1201
原创 【Kafka十四】关于auto.offset.reset[Q/A]
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or if an offset is out of...
2015-04-14 13:59:42
340
原创 【HBase十一】Java API操作HBase
Admin类的主要方法注释: 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is reserv...
2015-04-13 14:22:42
157
原创 【Kafka十三】Kafka Simple Consumer
代码中关于Host和Port是割裂开的,这会导致单机环境下的伪分布式Kafka集群环境下,这个例子没法运行。实际情况是需要将host和port绑定到一起, package kafka.examples.lowlevel;import kafka.api.FetchRequest;import kafka.api.FetchRequestBuilder;import k...
2015-04-13 13:28:22
292
原创 【HBase十】HBase存储文件HFile剖析
1. 首先看看HBase中存储的文件内容执行如下命令添加测试数据:create 'table3', 'colfam1', { SPLITS => ['row-300', 'row-500', 'row-700' , 'row-900'] } for i in '0'..'9' do for j in '0'..'9' do for k in '0'..'9' do put...
2015-04-10 16:07:49
349
原创 【HBase九】HBase架构
1. Zookeeper Dump访问HBase的web页面:http://192.168.26.140:16030/zk.jsp HBase is rooted at /hbaseActive master address: hadoop.master,16020,1428562242762Backup master addresses:Region server h...
2015-04-10 14:26:02
273
原创 【Avro二】Avro RPC框架
1. Avro RPC简介1.1. RPCRPC逻辑上分为二层,一是传输层,负责网络通信;二是协议层,将数据按照一定协议格式打包和解包从序列化方式来看,Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架,都能跨语言,性能优秀,数据精简,但是Avro的动态模式(不用生成代码,而且性能很好)这个特点让人非常喜欢,比较适合R...
2015-04-09 23:16:03
530
原创 【Avro一】Avro入门
本文的目的主要是总结下基于Avro Schema代码生成,然后进行序列化和反序列化开发的基本流程。需要指出的是,Avro并不要求一定得根据Schema文件生成代码,这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apac...
2015-04-08 20:58:05
234
原创 【Avro三】Hadoop MapReduce读写Avro文件
Avro是Doug Cutting(此人绝对是神一般的存在)牵头开发的。 开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的(使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景),因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计,然后将计算结...
2015-04-08 20:27:15
444
原创 【Hive十二】Hive服务
1. metastore[hadoop@hadoop bin]$ ./hive --service metastoreStarting Hive Metastore Server 访问:功能: 2. hiveserver2提供JDBC访问能力 jdbc:hive2://<host>:<port>org.apache.hive....
2015-04-08 15:36:52
161
原创 【Hive十一】Hive数据倾斜优化
什么是Hive数据倾斜问题 操作:join,group by,count distinct现象:任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成;查看未完成的子任务,可以看到本地读写数据量积累非常大,通常超过10GB可以认定为发生数据倾斜。原因:key分布不均匀倾斜度衡量:平均记录数超过50w且最大记录数是超过...
2015-04-08 15:03:25
227
原创 【Kafka十二】关于Kafka是一个Commit Log Service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解? A message is considered "committed" when all in sync replicas for that partition have applied it to their lo...
2015-04-08 11:09:07
312
原创 【Kafka十一】关于Kafka的副本管理
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功,默认是0,0表示即不进行确认即返回。1表示Leader写成功即返回,此时还没有进行写数据同步到其它Follower Partition中-1表示根据指定的最少Partition确认后才返回,这个在 This value...
2015-04-07 18:38:55
391
原创 【Kafka十】关于Kafka的offset管理
对Kafka offset的管理,一直没有进行系统的总结,这篇文章对它进行分析。 什么是offsetoffset是consumer position,Topic的每个Partition都有各自的offset.Keeping track of what has been consumed, is, surprisingly, one of the key performance ...
2015-04-07 13:45:07
2145
原创 【Hive十】Programming Hive学习笔记
第二章 Getting Started1.Hive最大的局限性是什么?一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce),不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的?Hive persists table schemas and other system metadata....
2015-04-04 16:30:08
156
原创 【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别:1. At most once,数据最多只能接受一次,有可能接收不到2. At least once, 数据至少接受一次,有可能重复接收3. Exactly once 数据保证被处理并且只被处理一次, 具体的多读几遍http://spark.apache.org/docs/latest/stream...
2015-04-03 18:19:57
154
原创 【Spark九十】Spark定义计算逻辑函数最佳实践
这里所谓的Spark定义的计算逻辑函数指的是在Spark中,任务执行的计算逻辑都是定义在Driver Program的函数中的,由于Scala定义函数的多样性,因此有必要总结下各种情况下的函数定义,对Spark将函数序列化到计算节点(Worker)的影响 Spark建议的三种做法+一种不推荐的做法1.定义内部函数常量package spark.examples.rddapi...
2015-04-03 18:06:18
283
原创 【Spark八十九】Spark Streaming处理速度滞后于读取速度测试
1. 测试代码package spark.examples.streamingimport org.apache.spark.SparkConfimport org.apache.spark.streaming.StreamingContext._import org.apache.spark.streaming._object NetCatStreamingWor...
2015-04-03 15:25:13
1179
原创 【Spark八十八】Spark Streaming累加器操作(updateStateByKey)
在实时计算的实际应用中,有时除了需要关心一个时间间隔内的数据,有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如: 对Nginx的access.log实时监控请求404时,有时除了需要统计某个时间间隔内出现的次数,有时还需要统计一整天出现了多少次404,也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器,工作原理是,定义一个类...
2015-04-03 14:12:05
913
原创 【spark八十七】给定Driver Program, 如何判断哪些代码在Driver运行,哪些代码在Worker上执行...
Driver Program是用户编写的提交给Spark集群执行的application,它包含两部分作为驱动: Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身,当计算任务在Worker执行时,执行计算逻辑完成application的计算任务接...
2015-04-02 21:46:22
2910
1
原创 【Spark八十六】Spark Streaming之DStream vs. InputDStream
1. DStream的类说明文档: /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous stream of ...
2015-04-02 21:36:59
474
原创 【Spark八十五】Spark Streaming分析结果落地到MySQL
几点总结:1. DStream.foreachRDD是一个Output Operation,类似于RDD的action,会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法2. 获取MySQL Connection的操作应该放在foreachRDD的参数(是一个RDD[T]=>Unit的函数类型),这样,当foreachRDD方法在每个Worker上执行...
2015-04-02 20:45:33
450
原创 【Spark八十四】Spark Streaming中DStream和RDD之间的关系
问题:在一个时间间隔中,Spark Streaming接收到的数据会生成几个RDD? 测试发现,在一个batchInterval中,会产生一个RDD,但是这个结论只是看到的现象。如果在给定的batchInterval中,数据量非常大,Spark Streaming会产生多少个RDD,目前还不确定,只能通过看源代码才能确定了。 答案很确定,一个batchInterval产生且...
2015-04-02 19:01:02
2583
2
原创 【Kafka九】Kafka High Level API vs. Low Level API
1. Kafka提供了两种Consumer APIHigh Level Consumer APILow Level Consumer API(Kafka诡异的称之为Simple Consumer API,实际上非常复杂)在选用哪种Consumer API时,首先要弄清楚这两种API的工作原理,能做什么不能做什么,能做的话怎么做的以及用的时候,有哪些可能的问题 2. Hi...
2015-04-02 10:16:52
437
原创 【Kafka八】Zookeeper上关于Kafka的配置信息
问题:1. Kafka的哪些信息记录在Zookeeper中2. Consumer Group消费的每个Partition的Offset信息存放在什么位置3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里4. Producer跟Zookeeper究竟有没有关系?没有关系!!! //consumers、config、brokers、contro...
2015-04-01 10:34:34
480
原创 【Kafka七】使用Kafka Consumer Offset Monitor 进行Kakfa监控
1. 获取Kafka Consumer Offset Monitor安装包http://pan.baidu.com/s/1kT5KeQ7 2. Kafka Consumer Offset Monitor启动脚本kafkacom.shjava -Xms128M -Xmx256M -Xss1024K -XX:PermSize=128m -XX:MaxPermSize=256m...
2015-04-01 10:10:51
633
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅