自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (1)
  • 收藏
  • 关注

转载 数据结构与算法面试题80道

转自:http://hi.baidu.com/geogre_jsj/blog/item/e4b98fd2aab5aa3611df9b92.html由于这些题,实在太火了。所以,应广大网友建议要求,在此把之前已整理公布的前80题, 现在,一次性分享出来。此也算是前80题第一次集体亮相。 此些题,已有上万人,看到或见识到,若私自据为己有,必定为有知之

2015-03-21 16:38:20 1843

转载 日记:Cannot find class [org.apache.commons.dbcp.BasicDataSource]问题

1. Cannot find class [org.apache.commons.dbcp.BasicDataSource]  class="org.apache.commons.dbcp.BasicDataSource"  destroy-method="close">     value="com.microsoft.jdbc.sqlserver.SQLServerDr

2014-10-14 10:57:25 1129

转载 什么是java序列化,如何实现java序列化?

http://blog.csdn.net/yakihappy/article/details/3979373

2014-09-09 17:10:28 552

转载 Java序列化与反序列化

Java序列化与反序列化是什么?为什么需要序列化与反序列化?如何实现Java序列化与反序列化?本文围绕这些问题进行了探讨。1.Java序列化与反序列化Java序列化是指把Java对象转换为字节序列的过程;而Java反序列化是指把字节序列恢复为Java对象的过程。2.为什么需要序列化与反序列化我们知道,当两个进程进行远程通信时,可以相互发送各种类型的数据,包括文本、图片、音频、视频等

2014-09-09 17:00:32 471

转载 TCP/IP、Http、Socket的区别

网络由下往上分为  物理层、数据链路层、网络层、传输层、会话层、表示层和应用层。  通过初步的了解,我知道IP协议对应于网络层,TCP协议对应于传输层,而HTTP协议对应于应用层,  三者从本质上来说没有可比性,  socket则是对TCP/IP协议的封装和应用(程序员层面上)。  也可以说,TPC/IP协议是传输层协议,主要解决数据如何在网络中传输,

2014-05-08 09:08:56 478

转载 Apache Hadoop 版本

由于Hadoop版本混乱多变,因此,Hadoop的版本选择问题一直令很多初级用户苦恼。本文总结了Apache Hadoop和Cloudera Hadoop的版本衍化过程,并给出了选择Hadoop版本的一些建议。1. Apache Hadoop1.1  Apache版本衍化截至目前(2012年12月23日),Apache Hadoop版本分为两代,我们将第一代Hadoop称为

2014-04-09 16:31:07 586

转载 编译性语言、解释性语言和脚本语言

什么是编译性语言、解释性语言和脚本语言  计算机不能直接理解高级语言,只能直接理解机器语言,所以必须要把高级语言翻译成机器语言,计算机才能值型高级语言编写的程序。  翻译的方式有两种,一个是编译,一个是解释。两种方式只是翻译的时间不同。编译型语言写的程序执行之前,需要一个专门的编译过程,把程序编译成为机器语言的文件,比如exe文件,以后要运行的话就不用重新翻译了,直接使用编译的结果

2014-03-31 21:15:39 474

转载 hadoop 学习路线图

仅供借鉴按照这个路线图来学习即可。    1、M. Tim Jones的三篇文章:    用Hadoop进行分布式数据处理第1部分(入门):http://www.ibm.com/developerworks/cn/linux/l-hadoop-1/index.html    用Hadoop进行分布式数据处理第2部分(进阶):http://www.ibm.com/developerw

2014-03-14 09:19:11 462

转载 linux 下 eclipse hadoop 配置及 wordcount验证

我下了一个hadoop-eclipse-plugin-1.0.4.jar。非常好用。下载后,将jar包放到Eclipse安装目录下的plugins包下,重启Eclipse即可。打开Eclipse     如果在Project Explorer中出现DFS Locations图标(需点击open perspective,选择MapReduce),则说明安装正确,如图:

2014-03-13 21:45:56 739

转载 org.apache.hadoop.mapred.InvalidInputException: Input path does not exist问题

在eclipse中跑Hadoop测试用例时,出现这样的错误Exception in thread "main" org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/home/niy/workspace/mywordcount/input系统无法识别HDFS文件系统,错把

2014-03-13 21:18:21 1333

转载 hadoop 学习资源

1、Hadoop学习资料 -- 这里面总结了很多的东西,值得一一细看http://cloud21.iteye.com/blog/6071752、关于Hadoop的两本书 -- 有电子书下载http://caibinbupt.iteye.com/blog/4188463、JavaEye Hadoop圈子 -- 圈子中的Hadoop资源篇很不错http://hadoop.g

2014-03-11 10:32:01 543

转载 hadoop 计算pi

一、hadoop不适合计算密集型的工作     以前看过一个PPT: Hadoop In 45 Minutes or Less ,记得上面说hadoop不适合计算密集型的工作,比如计算PI后100000位小数。     但是,前几天,我却发现了在hadoop自带的examples里,竟然有PiEstimator这个例子!!它是怎么做到的??二、通过扔飞镖也能得出PI

2014-03-11 10:28:45 1037

转载 hbase 基础

我眼中的HBase (入门理解) 上网Google了下什么是HBase,下面说一下,我的初步的理解。u 基本概念:什么是HBase?HBase(Hadoop Database): 首先HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库.另一个不同的是HBase基于列的而不是基于行的模式。

2014-03-07 13:40:52 846

转载 Linux添加/删除用户和用户组

本文总结了Linux添加或者删除用户和用户组时常用的一些命令和参数。1、建用户:adduser phpq                             //新建phpq用户passwd phpq                               //给phpq用户设置密码2、建工作组groupadd test                       

2014-03-01 09:06:14 630

转载 Win7+VMware Workstation环境下的CentOS-Linux网络连接设置

http://blog.sciencenet.cn/blog-430991-507041.html

2014-02-27 15:14:15 662

转载 centos 解压指令

tar [-cxtzjvfpPN] 文件与目录 ....参数:-c :建立一个压缩文件的参数指令(create 的意思);-x :解开一个压缩文件的参数指令!-t :查看 tarfile 里面的文件!特别注意,在参数的下达中, c/x/t 仅能存在一个!不可同时存在!因为不可能同时压缩与解压缩。-z :是否同时具有 gzip 的属性?亦即是否需要用 gzip 压缩?

2014-02-26 12:49:03 651

转载 hadoop 单机 伪分布式 完全分布式 区别

单机模式(standalone)       单机模式是Hadoop的默认模式。这种模式在一台单机上运行,没有分布式文件系统,而是直接读写本地操作系统的文件系统。当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选择了最小配置。在这种默认模式下所有3个XML文件均为空。当配置文件为空时,Hadoop会完全运行在本地。因为不需要与其他节点交互,单机模式就不使用HDFS,

2014-02-26 12:30:08 5058

转载 centos 系统下 hadoop SSH配置

由于hadoop需要无密码登录作为datanode的节点,而由于部署单节点的时候,当前节点既是namenode又是datanode,所以此时需要生成无密码登录的ssh。方法如下:执行ssh-keygen –t rsa一路回车然后cd /root/.sshls一下会看到有两个文件,一个是id_rsa,另一个是id_rsa.pubid_rsa是密钥,id_rsa.pub是公钥。我们在执

2014-02-26 12:10:53 778

转载 Centos安装JDK,RPM安装JDK经典教程

第一步:下载jdk本例使用jdk-7u5-linux-i586.rpm包,登陆到http://www.java.com下载即可。第二步:检查文件权限及安装情况1.以root权限登陆系统,查看并修改使jdk-7u5-linux-i586.rpm具有执行权限chmod +x jdk-7u5-linux-i586.rpm2. 若之前没有装过或系统自带了JDK,为了确保安装

2014-02-25 20:26:36 973

转载 centos 下 jdk的安装

# rpm -qa|grep jdk ← 查看jdk的信息或直接执行 或 # rpm -q jdk 或 # java -version # rpm -qa | grep gcj ← 确认gcj的版本号 # yum -y remove java-1.4.2-gcj-compat ← 卸载gcj 第二步:安装JDK 从SUN下载jdk-1_5_0_14-linux-

2014-02-25 19:50:59 536

转载 linux下常用拷贝命令

cp命令   该命令的功能是将给出的文件或目录拷贝到另一文件或目录中,就如同DOS下的copy命令一样,功能非常强大。   语法: cp [选项] 源文件或目录 目标文件或目录   说明:该命令把指定的源文件复制到目标文件或把多个源文件复制到目标目录中。   该命令的各选项含义如下:   - a 该选项通常在拷贝目录时

2014-02-25 17:51:19 609

Kafka技术内幕

第1章 Kafka入门 1 1.1 Kafka流式数据平台 1 1.2 Kafka的基本概念 3 1.2.1 分区模型 3 1.2.2 消费模型 4 1.2.3 分布式模型 5 1.3 Kafka的设计与实现 6 1.3.1 文件系统的持久化与数据传输效率 6 1.3.2 生产者与消费者 8 1.3.3 副本机制和容错处理 10 1.4 快速开始 11 1.4.1 单机模式 12 1.4.2 分布式模式 14 1.4.3 消费组示例 16 1.5 环境准备 18 第2章 生产者 22 2.1 新生产者客户端 22 2.1.1 同步和异步发送消息 23 2.1.2 客户端消息发送线程 29 2.1.3 客户端网络连接对象 31 2.1.4 选择器处理网络请求 35 2.2 旧生产者客户端 43 2.2.1 事件处理器处理客户端发送的消息 44 2.2.2 对消息集按照节点和分区进行整理 46 2.2.3 生产者使用阻塞通道发送请求 48 2.3 服务端网络连接 49 2.3.1 服务端使用接收器接受客户端的连接 50 2.3.2 处理器使用选择器的轮询处理网络请求 53 2.3.3 请求通道的请求队列和响应队列 56 2.3.4 Kafka请求处理线程 58 2.3.5 服务端的请求处理入口 58 2.4 小结 60 第3章 消费者:高级API和低级API 61 3.1 消费者启动和初始化 67 3.1.1 创建并初始化消费者连接器 69 3.1.2 消费者客户端的线程模型 70 3.1.3 重新初始化消费者 72 3.2 消费者再平衡操作 73 3.2.1 分区的所有权 74 3.2.2 为消费者分配分区 75 3.2.3 创建分区信息对象 78 3.2.4 关闭和更新拉取线程管理器 80 3.2.5 分区信息对象的偏移量 80 3.3 消费者拉取数据 82 3.3.1 拉取线程管理器 82 3.3.2 抽象拉取线程 87 3.3.3 消费者拉取线程 90 3.4 消费者消费消息 94 3.4.1 Kafka消息流 94 3.4.2 消费者迭代消费消息 95 3.5 消费者提交分区偏移量 97 3.5.1 提交偏移量到ZK 98 3.5.2 提交偏移量到内部主题 99 3.5.3 连接偏移量管理器 101 3.5.4 服务端处理提交偏移量的请求 103 3.5.5 缓存分区的偏移量 106 3.6 消费者低级API示例 108 3.6.1 消息消费主流程 109 3.6.2 找出分区的主副本 112 3.6.3 获取分区的读取偏移量 113 3.6.4 发送拉取请求并消费消息 116 3.7 小结 117 3.7.1 消费者线程模型 117 3.7.2 再平衡和分区分配 119 第4章 新消费者 121 4.1 新消费者客户端 125 4.1.1 消费者的订阅状态 125 4.1.2 消费者轮询的准备工作 134 4.1.3 消费者轮询的流程 138 4.1.4 消费者拉取消息 146 4.1.5 消费者获取记录 149 4.1.6 消费消息 160 4.2 消费者的网络客户端轮询 161 4.2.1 异步请求 162 4.2.2 异步请求高级模式 169 4.2.3 网络客户端轮询 184 4.3 心跳任务 188 4.3.1 发送心跳请求 188 4.3.2 心跳状态 189 4.3.3 运行心跳任务 191 4.3.4 处理心跳结果的示例 192 4.3.5 心跳和协调者的关系 193 4.4 消费者提交偏移量 195 4.4.1 自动提交任务 195 4.4.2 将拉取偏移量作为提交偏移量 197 4.4.3 同步提交偏移量 201 4.4.4 消费者的消息处理语义 202 4.5 小结 206 第5章 协调者 210 5.1 消费者加入消费组 211 5.1.1 元数据与分区分配器 212 5.1.2 消费者的加入组和同步组 213 5.1.3 主消费者执行分配任务 220 5.1.4 加入组的准备、完成和监听器 224 5.2 协调者处理请求 229 5.2.1 服务端定义发送响应结果的回调方法 229 5.2.2 消费者和消费组元数据 232 5.2.3 协调者处理请求前的条件检查 236 5.2.4 协调者调用回调方法发送响应给客户端 237 5.3 延迟的加入组操作 242 5.3.1 “准备再平衡” 242 5.3.2 延迟操作和延迟缓存 244 5.3.3 尝试完成延迟的加入操作 246 5.3.4 消费组稳定后,原有消费者重新加入消费组 250 5.3.5 消费组未稳定,原有消费者重新加入消费组 251 5.4 消费组状态机 254 5.4.1 再平衡操作与监听器 254 5.4.2 消费组的状态转换 262 5.4.3 协调者处理“加入组请求” 264 5.4.4 协调者处理“同步组请求” 274 5.4.5 协调者处理“离开组请求” 276 5.4.6 再平衡超时与会话超时 278 5.4.7 延迟的心跳 282 5.5 小结 290 第6章 存储层 293 6.1 日志的读写 293 6.1.1 分区、副本、日志、日志 分段 294 6.1.2 写入日志 297 6.1.3 日志分段 305 6.1.4 读取日志 315 6.1.5 日志管理 329 6.1.6 日志压缩 336 6.2 服务端处理读写请求 348 6.2.1 副本管理器 351 6.2.2 分区与副本 362 6.3 延迟操作 373 6.3.1 延迟操作接口 374 6.3.2 延迟操作与延迟缓存 383 6.3.3 延迟缓存 391 6.4 小结 400 第7章 控制器 402 7.1 Kafka控制器 402 7.1.1 控制器选举 403 7.1.2 控制器上下文 406 7.1.3 ZK监听器 408 7.1.4 分区状态机和副本状态机 410 7.1.5 删除主题 430 7.1.6 重新分配分区 436 7.1.7 控制器的网络通道管理器 445 7.2 服务端处理LeaderAndIsr请求 448 7.2.1 创建分区 449 7.2.2 创建主副本、备份副本 451 7.2.3 消费组元数据迁移 463 7.3 元数据缓存 468 7.3.1 服务端的元数据缓存 472 7.3.2 客户端更新元数据 473 7.4 Kafka服务关闭 483 7.5 小结 487 第8章 基于Kafka构建数据流管道 490 8.1 Kafka集群同步工具:MirrorMaker 490 8.1.1 单机模拟数据同步 491 8.1.2 数据同步的流程 493 8.2 Uber集群同步工具:uReplicator 498 8.2.1 Apache Helix介绍 498 8.2.2 Helix控制器 501 8.2.3 Helix工作节点 504 8.3 Kafka连接器 505 8.3.1 连接器的使用示例 507 8.3.2 开发一个简单的连接器 510 8.3.3 连接器的架构模型 515 8.3.4 Herder的实现 520 8.3.5 Worker的实现 524 8.3.6 配置存储与状态存储 530 8.3.7 连接器与任务的实现 550 8.4 小结 565 第9章 Kafka流处理 569 9.1 低级Processor API 569 9.1.1 流处理应用程序示例 569 9.1.2 流处理的拓扑 575 9.1.3 流处理的线程模型 580 9.1.4 状态存储 613 9.2 高级流式DSL 636 9.2.1 DSL应用程序示例 636 9.2.2 KStream和KTable 638 9.2.3 连接操作 665 9.2.4 窗口操作 672 9.3 小结 684 第10章 高级特性介绍 686 10.1 客户端配额 686 10.2 消息与时间戳 692 10.3 事务处理 699 10.4 小结 703

2018-03-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除