自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

guanhuai123的专栏

转载 Flink 如何管理 Kafka 消费位点

Flink 如何管理 Kafka 消费位点原文：https://data-artisans.com/blog/how-apache-flink-manages-kafka-consumer-offsets作者：Fabian Hueske, Markos Sfikas译者：云邪（Jark）在本周的《Flink Friday Tip》中，我们将结合例子逐步讲解 Apache Flink 是如何与 Apache Kafka 协同工作并确保来自 Kafka topic 的消息以 exactly.

2021-03-25 16:14:46 154 1

转载 Flink 原理与实现：理解 Flink 中的计算资源

Flink 原理与实现：理解 Flink 中的计算资源本文所讨论的计算资源是指用来执行 Task 的资源，是一个逻辑概念。本文会介绍 Flink 计算资源相关的一些核心概念，如：Slot、SlotSharingGroup、CoLocationGroup、Chain等。并会着重讨论 Flink 如何对计算资源进行管理和隔离，如何将计算资源利用率最大化等等。理解 Flink 中的计算资源对于理解 Job 如何在集群中运行的有很大的帮助，也有利于我们更透彻地理解 Flink 原理，更快速地定位问题...

2021-03-25 16:11:53 215

原创 mac下redis cluster安装与配置

mac下redis cluster安装与配置1、安装brew install redis通过 Homebrew 安装，一般会安装到/usr/local/Cellar目录下，配置文件位于/usr/local/etc目录下，直接使用可通过如下命令，$ brew services start redis$ redis-cli$ brew services stop redis其中redis-cli会默认连接到6379端口上启动的服务，连接到指定端口，使用redis-c...

2021-01-31 21:39:29 383

转载 hbase开发，hbase表操作及其java api实现

]开发环境hadoop: hadoop-1.1.2hbase: hbase-0.94.11-securityeclipse:Juno Service Release 2配置Eclipse 通过 Eclipse 创建一个新 Java 工程，右击项目根目录，选择“Properties> Java Build Path> Library>

2015-06-01 20:04:50 786

转载使用Storm实现实时大数据分析

使用Storm实现实时大数据分析博客分类： Storm 摘要：随着数据体积的越来越大，实时处理成为了许多机构需要面对的首要挑战。Shruthi Kumar和Siddharth Patankar在Dr.Dobb’s上结合了汽车超速监视，为我们演示了使用Storm进行实时大数据分析。CSDN在此编译、整理。简单和明了，Storm让大数据分析变得轻松加

2015-05-27 18:01:35 367

转载 Hadoop中CombineFileInputFormat详解

在MR实践中，会有很多小文件，单个文件产生一个mapper，资源比较浪费，后续没有reduce逻辑的话，会产生很多小文件，文件数量暴涨，对后续的hive job产生影响。所以需要在mapper中将多个文件合成一个split作为输入，CombineFileInputFormat满足我们的需求。CombineFileInputFormat 原理(网上牛人总结)：第一

2015-03-31 19:49:48 557

转载 Protobuf java基础

本文档为java编程人员使用protocol buffer提供了一个基本的介绍，通过一个简单的例程进行介绍。通过本文，你可以了解到如下信息：1、在一个.proto文件中定义一个信息格式.2、使用protoc命令进行编译,生成java代码.3、使用Java protocol buffer API进行读写操作.l 定义proto文件以一个地址薄为例,从

2015-03-30 14:18:21 373

转载 Hadoop中MapReduce多种join实现实例分析

Hadoop中MapReduce多种join实现实例分析一、概述对于RDBMS中的join操作大伙一定非常熟悉，写sql的时候要十分注意细节，稍有差池就会耗时巨久造成很大的性能瓶颈，而在Hadoop中使用MapReduce框架进行join的操作时同样耗时，但是由于hadoop的分布式设计理念的特殊性，因此对于这种join操作同样也具备了一定的特殊性。本文主要对MapRedu

2015-03-23 20:10:15 670

转载 mapreduce优化

Data MiningMapReduce FeaturesCountersBuilt-in Counters这些counters你在Web UI中，或是job结束后在控制台生成的统计报告中都看得到，根据名字你也能猜到这些counter是什么意思。分为3个Group：Map-Reduce FramewordMap input records，Map ski

2015-03-20 20:22:50 538

转载 MapReduce TotalOrderPartitioner 全局排序

MapReduce TotalOrderPartitioner 全局排序我们知道Mapreduce框架在feed数据给reducer之前会对map output key排序，这种排序机制保证了每一个reducer局部有序，Hadoop 默认的partitioner是HashPartitioner，它依赖于output key的hashcode，使得相同key会去相同reducer，

2015-03-20 18:35:22 783

转载 Mapreduce-Partition分析

Mapreduce-Partition分析Partition所处的位置Partition位置Partition主要作用就是将map的结果发送到相应的reduce。这就对partition有两个要求：1）均衡负载，尽量的将工作均匀的分配给不同的reduce。2）效率，分配速度一定要快。Mapreduce提供的PartitionerMapreduce默认

2015-03-20 18:22:07 387

转载 MapReduce:详解Shuffle过程

Shuffle过程是MapReduce的核心，也被称为奇迹发生的地方。要想理解MapReduce， Shuffle是必须要了解的。我看过很多相关的资料，但每次看完都云里雾里的绕着，很难理清大致的逻辑，反而越搅越混。前段时间在做MapReduce job 性能调优的工作，需要深入代码研究MapReduce的运行机制，这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火，所以在这里

2015-03-19 23:25:29 308

转载 Pig 调优实践经验总结

Pig 调优实践经验总结1. pig.maxCombinedSplitSize 和 pig.splitCombination在实际使用PIG处理数据时，会经常要处理大批量的小文件。在这种情况下，如果不对Pig脚本进行任何特别设置，默认情况下很有可能会遇到类似这样的“命名空间超过配额限制”的错误：org.apache.Hadoop.hdfs.protocol.NSQuot

2015-03-19 16:16:50 611

转载如何在hadoop中控制map的个数

如何在hadoop中控制map的个数 hadooop提供了一个设置map个数的参数mapred.map.tasks，我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数，并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值，最终map的个数，还取决于其他的因素。为了方便介绍，先来看几个名词：bloc

2015-03-19 15:46:33 388

转载数据倾斜

数据倾斜总结在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。Hive的执行是分阶段的，map处理数据量的差异取决于上一个stage的redu

2015-01-27 11:27:01 544

转载 Python：使用threading模块实现多线程

综述Python这门解释性语言也有专门的线程模型，Python虚拟机使用GIL（Global Interpreter Lock，全局解释器锁）来互斥线程对共享资源的访问，但暂时无法利用多处理器的优势。在Python中我们主要是通过thread和 threading这两个模块来实现的，其中Python的threading模块是对thread做了一些包装的，可以更加方便的被使用，所以我

2014-11-24 18:44:44 525

转载深度分析如何在Hadoop中控制Map的数量

分类： Hadoop2012-04-09 17:29 9549人阅读评论(2) 收藏举报hadooppathinputstringapi文档目录(?)[+]深度分析如何在Hadoop中控制Map的数量[email protected]很多文档中描述，Mapper的数量在默认情况下不可直接控制干预，因为Mapp

2014-11-03 19:20:49 334

转载 PYTHON THREADING模块

PYTHON THREADING模块首先我们来看看threading包含那些属性和方法吧（官方文档在http://docs.python.org/library/threading.html）就我一直不太明白的几个点开始吧1. ConditionA factory function that returns a new condition variable obje

2014-09-24 15:01:20 394

转载初学maven(5)-使用assembly plugin实现自定义打包

在上一篇文章中，讨论到在对maven的机制不熟悉的情况下，为了实现自己需要的打包格式而使用maven ant task以maven + ant的方式来实现非标准打包，而现在要介绍的是maven中针对打包任务而提供的标准插件：assembly plugin。依然以上文（初学maven(4)-使用maven ant task实现非标准打包）的项目为例，要打包的程序如下：

2014-06-17 11:44:26 453

转载初学maven(4)-使用maven ant task实现非标准打包

maven很强大，但是总有些事情干起来不是得心应手，没有使用ant时那种想怎么干就怎么干的流畅感。尤其当要打包一个特殊（相对maven的标准架构而且）时，常有不知所措的感觉。当然这个应该和自己对maven的了解不够有关，毕竟，“初学maven”嘛。但是maven在依赖管理方面实在是太强大了，太喜欢，退回原来的ant方式完全不可能，我想用过maven的人，一般是不会有回到原来在cvs

2014-06-17 11:43:24 1409

转载初学maven(3)-使用nexus替代artifactory作为maven私服

之前看到过一些Nexus的介绍，由于刚开始接触maven时使用的私服是artifactory，因此没有太在意。今天想着既然Nexus能有胆量出来混，应该有点真本事才是，看了一下nexus的安装介绍，挺简单的，试试无妨。因此装上小试了一下，结果喜出望外，nexus的表现非常不错，尤其是在开启远程索引之后，简直太方便了。于是决定放弃artifactory改而使用nexus作为自己的ma

2014-06-17 11:42:04 1665

转载初学maven(2)-maven/artifactory/m2eclipse安装全过程

前段时间研究过一下maven，中途因为工作忙搁置了一段时间，重新再看时发现安装过程基本忘光。只好找资料看然后再来一遍，将maven，artifactory和m2eclipse安装使用的全过程记录整理出来，备忘。另外我想这些资料应该比较适合maven的入门新手，照做一遍就可以完成三个东西的安装设置，然后就可以学习和使用了。一. 安装maven 安装官方标准的安装方式（http://

2014-06-17 11:40:45 490

转载初学maven(1)-常见小问题集锦

初学maven(1)-常见小问题集锦上传者：hi_720 累计赚钱 6.074 元我也要“分享赚钱”2013/2/9关注(243)评论(0)声明：此内容仅代表网友个人经验或观点，不代表本网站立场和观点。初学maven，遇到不少问题，记录下来，呵呵，依然是备忘兼共享。

2014-06-17 11:35:06 408

转载【java】接口的作用|实例讲解java接口

接口作用：解决java不能多继承，用过接口变相实现多继承。屏蔽实现的不同的差异接口实例现在假如说，java想让oracle和mysql实现自己的数据源和关闭数据源，java只需要做一个接口interface出来。而oracle和mysql自己去实现这个接口即可。ok 下面先上一个组织结构，需要用到工厂模式。总共

2014-06-11 16:23:18 465

转载客户端用java api 远程操作HDFS以及远程提交MR任务(源码和异常处理)

两个类，一个HDFS文件操作类，一个是wordcount 词数统计类，都是从网上看来的。上代码：[java] view plaincopypackage mapreduce; import java.io.IOException; import java.util.ArrayList; import java.util.Li

2013-12-05 15:16:47 1249

转载 Hadoop map reduce 过程获取环境变量

Hadoop map reduce 过程获取环境变量Hadoop任务执行过程中，在每一个map节点或者reduce节点能获取一下环境变量，利用这些变量可以为特殊的需求服务，例如：获取当前map节点处理的数据文件的路径。hadoop是java实现的，利用java可以很方便的获取相关环境变量，其内部包含在Context和MRJobConfig中（hadoop版本不一样，可能会有

2013-11-28 17:30:02 757

转载 python hadoop 在streaming中获取文件名的方法（参考java ）适用： MRjob

python hadoop 在streaming中获取文件名的方法（参考java ）适用： MRjob分类： python hadoop2013-11-06 11:46 207人阅读评论(2) 收藏举报hadoopmrjobpythonstreamingfilename在hadoop的开发中，经常要根据streaming中不同的文件名做不同的处理，需要获取文件

2013-11-27 19:05:11 812

转载 Hadoop Family Job Schedule----Azkaban

Hadoop Family Job Schedule----Azkaban分类：云计算多线程 HADOOP2013-09-04 14:43 59人阅读评论(0) 收藏举报Job Schedule 任务调度平台Hadoop工作流管理目录(?)[+]Hadoop Family JobSchedule----Azkaban1.1

2013-10-10 13:41:59 1044

转载 Azkaban2官方配置文档

Azkaban2官方配置文档分类： Azkaban 学习笔记2013-10-07 20:24 193人阅读评论(0) 收藏举报最近工作实在是太忙了，我把之前翻译的官方的文档先放上来吧，希望对大家有所帮助~介绍Azkaban2新功能：1、Web UI2、简单工作流上传3、更容易设置job的依赖关系4、调度工作流5

2013-10-10 13:31:04 1007

转载 MapReduce Join联结实现

一、背景早在8月份的时候，我就做了一些MR的Join查询，但是发现回北京之后，2个月不用，居然有点生疏，所以今天早上又花时间好好看了一下，顺便写下这个文档，以供以后查阅。二、环境JDK 1.6、Linux操作系统、hadoop0.20.2三、资料数据在做这个Join查询的时候，必然涉及数据，我这里设计了2张表，分别较data.txt和info.txt，字段之间以\t划分。d

2013-08-21 10:53:42 521

转载 Pig性能优化

1. 尽早去除无用的数据 MapReduce Job的很大一部分开销在于磁盘IO和数据的网络传输，如果能尽早的去除无用的数据，减少数据量，会提升Pig的性能。 1). 尽早的使用Filter 使用Filter可以去除数据中无用的行(Record)，尽早的Filter掉无用的数据，可以减少数据量，提升Pig性能。 2). 尽早的使用Project(Foreach Ge

2013-08-16 17:35:18 533

转载 Python标准库(非常经典的各种模块介绍)

Python Standard Library翻译: Python 江湖群10/06/07 20:10:08 编译0.1. 关于本书0.2. 代码约定0.3. 关于例子0.4. 如何联系我们核心模块1.1. 介绍1.2. _ _builtin_ _ 模块1.3. exceptions 模块1.4. os 模块1.5. os.path 模块1.6.

2013-08-12 14:23:18 3636

转载 python编辑器对比和推荐

我先给一个初步的表格吧，大家如果有什么意见，或有补充，欢迎提出。有些我没有用过，先不写了。以下是我使用过的python IDE:除了PythonWin, VisualPython只支持Windows，其它都至少支持Win/Linux/Mac。各项含义：自动补全：变量/函数名打到一半时，提示可能的完整的变量/函数名。智能感知：在库/类/对象后打"."后，提示可能的函数

2013-08-12 13:42:20 748

原创【pig】pig的vim高亮设置

1.到http://www.vim.org/scripts/script.php?script_id=2186下载pig.vim2. 拷贝pig.vim 安装目录/syntax/下（如果不知道安装目录，可以用whereisvim来查找）3. 在vimrc文件里增加以下三行（我们的系统都在/etc/vimrc下）augroup filetypedetect au

2013-08-12 12:04:16 821

转载 Linux下Apache 2.4.3安装和配置教程

作为最流行的Web服务器，Apache已经很久没有用重大更新来吸引用户的目光了。2012年8月16日，Apache终于进行了自2005年12月以来的首次重大更新，发布Apache HTTP Server 2.4.3。Apache 2.4提供了很多性能方面的提升，包括支持更大流量、更好地支持云计、利用更少的内存处理更多的并发等。除此之外，新版Apache的提升还包括性能提升、内存利用、异步I

2013-07-12 15:54:13 1079

转载编译mysql出现CMake Error at cmake/readline.cmake:83

编译mysql出现CMake Error at cmake/readline.cmake:832012-05-01 11:09:01 | 812次阅读 | 评论：0 条 | itokit -- Could NOT find Curses (missing: CURSES_LIBRARY CURSES_INCLUDE_PATH)，CMake Error at cmake/read

2013-07-12 12:55:23 1003

db2导入文本数据的方法

db2数据导入db2数据导入db2数据导入db2数据导入db2数据导入db2数据导入db2数据导入db2数据导入db2数据导入db2数据导入db2数据导入db2数据导入db2数据导入db2数据导入db2数据导入

2010-12-22

cognos调优说明

本实例讲述了cognos调优的多种方法，难得的好资料

2010-06-01

cognos使用入门

cognos轻松入门，了解cognos架构，组件，进入精彩的cognos世界

2010-03-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

guanhuai123 CSDN认证博客专家 CSDN认证企业博客

码龄16年

IP 属地：北京市

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

3: 原创

36万+: 周排名

57万+: 总排名

2万+: 访问

: 等级

354: 积分

3: 粉丝

0: 获赞

1: 评论

1: 收藏

私信

关注

热门文章

分类专栏

flink 2篇
mysql 1篇
hadoop 21篇
java 13篇
python 1篇

最新评论

Flink 如何管理 Kafka 消费位点
CSDN-Ada助手: 非常感谢CSDN博主分享的《Flink 如何管理 Kafka 消费位点》这篇博客，这对于正在使用Flink和Kafka的开发者们来说无疑是一篇非常实用的技术文章。我觉得下一篇博客可以结合Flink和Kafka相关的实践经验，分享如何应对高并发场景下的数据处理等挑战。具体建议可以写一篇《Flink+Kafka在高并发场景下的应用实践》，介绍如何通过合理的Kafka分区设计、Flink任务调度优化等方式，提高数据处理的效率和稳定性，相信会对其他用户产生很大的帮助。为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。

最新文章

提示

确定要删除当前文章？

取消删除