自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(52)
  • 资源 (4)
  • 收藏
  • 关注

原创 重磅消息-Apache Flink1.7中文官方文档GitBook大公开

大家好,最近一段时间没有更新公众号,还请大家见谅!现在给大家带来一个好消息,我将公开近期我一直在努力翻译的Apache Flink中文官方文档的GitBook,希望能帮助大家一起学习Flink,一起提升!本文档由我个人耗费2个月时间翻译,个人英语能力有限,有翻译不好的地方希望大伙多加指正。谢谢!!!Flink介绍Apache Flink是一个面向数据流处理和批量数据处理的可分布...

2019-03-21 10:55:47 3109

原创 2018年20个主要的大数据认证

“大数据”一词反映了一个非常实际的增长趋势。到2020年,每个人每秒将产生1.7MB数据。根据调研机构IDC公司的调查,2020年全球数据量将增加到44万亿GB。数以亿计的智能手机和数十亿台物联网(IoT)设备每分钟产生的近300万个Facebook帖子和近300万个视频,每秒约有40,000次谷歌搜索查询。而大数据认证的数量也在不断增加,尽管不尽相同。这些资格来自供应商、教育机构、独立或行业机...

2018-12-18 09:22:28 4878

原创 Flink源码解析 | 从Example出发:理解Flink启动流程

从《Apache Flink本地部署》这篇文章中可以看到,我们启动集群都是通过脚本start-cluster.sh开始执行。我们的源码解析之路就从flink的bash脚本入手。start-cluster.shbin=`dirname "$0"`bin=`cd "$bin"; pwd`. "$bin"/config.sh# Start the JobManager instance...

2018-12-12 21:35:16 2287

原创 Apache Flink本地模式部署

Apache Flink部署模式有好几种,本文主要介绍Apache Flink的本地部署模式。本地部署模式主要用于开发者程序调试测试使用。先决条件运行系统:系统方面没有过多要求,Linux、Mac、Windows均可Java 1.8.x以上,Apache Flink不支持1.8.x以下的版本。检查系统的Java版本$ java -versionjava version "1.8...

2018-12-12 21:28:30 3289

原创 Spark集成TensorflowOnSpark standalone模式下测试mnist

微信公众号(SZBigdata-Club):后续博客的文档都会转到微信公众号中。 1、公众号会持续给大家推送技术文档、学习视频、技术书籍、数据集等。 2、接受大家投稿支持。 3、对于各公司hr招聘的,可以私下联系我,把招聘信息发给我我会在公众号中进行推送。 技术交流群:59701880 深圳广州hadoop好友会 预先条件安装tensorflow环境下载tensorfl...

2018-11-12 15:28:54 1202

原创 Carbondata 1.4.0+Spark 2.2.1 On Yarn集成安装

微信公众号(SZBigdata-Club):后续博客的文档都会转到微信公众号中。 1、公众号会持续给大家推送技术文档、学习视频、技术书籍、数据集等。 2、接受大家投稿支持。 3、对于各公司hr招聘的,可以私下联系我,把招聘信息发给我我会在公众号中进行推送。 技术交流群:59701880 深圳广州hadoop好友会 由于项目需要,近期一直在研究华为开源的carbondata项目,...

2018-11-12 15:26:35 960

翻译 【Apache Beam系列】Apache Beam Pipeline设计

微信公众号(SZBigdata-Club):后续博客的文档都会转到微信公众号中。 1、公众号会持续给大家推送技术文档、学习视频、技术书籍、数据集等。 2、接受大家投稿支持。 3、对于各公司hr招聘的,可以私下联系我,把招聘信息发给我我会在公众号中进行推送。 技术交流群:59701880 深圳广州hadoop好友会  本文主要介绍开发者在开发Apache Beam管道的时候,...

2018-11-12 15:22:26 590

原创 julia第三方包引入方法及JDBC操作

微信公众号(SZBigdata-Club):后续博客的文档都会转到微信公众号中。 1、公众号会持续给大家推送技术文档、学习视频、技术书籍、数据集等。 2、接受大家投稿支持。 3、对于各公司hr招聘的,可以私下联系我,把招聘信息发给我我会在公众号中进行推送。 技术交流群:59701880 深圳广州hadoop好友会 第三方包引入引入Pkgimport Pkg引入第...

2018-11-09 15:40:18 5041

原创 大数据生态圈之流式数据处理框架选择(Storm VS Kafka Streams VS Spark Streaming VS Flink VS Samza)

微信公众号(SZBigdata-Club):后续博客的文档都会转到微信公众号中。 1、公众号会持续给大家推送技术文档、学习视频、技术书籍、数据集等。 2、接受大家投稿支持。 3、对于各公司hr招聘的,可以私下联系我,把招聘信息发给我我会在公众号中进行推送。 技术交流群:59701880 深圳广州hadoop好友会  随着新设备,传感器和技术的出现,数据增长率在不断加速,根据...

2018-11-08 17:09:48 2318

原创 Google黑科技,浏览器上的机器学习框架--Tensorflow.js

Google黑科技,浏览器上的机器学习框架–Tensorflow.js2018年3月30日,谷歌 TenosrFlow 开发者峰会 2018 在美国加州石景山开幕,来自全球的机器学习用户围绕 TensorFlow 展开技术演讲与演示。今年,Tensorflow做的一件很好意思的事情,发布了面向JavaScript开发者全新的学习框架Tensorflow.js,将机器学习搬上了浏览器这个...

2018-04-12 10:20:14 2568

翻译 【Apache Samza 系列】实时流数据处理框架Samza中文教程 (三)-- 概念

概念本章介绍在Samza高层次的概念。Streams(流)Samza处理流。流则是由一系列不可变相似类型的消息组成。举个例子,一个流可能是网站所有的点击事件,或者到一个特定数据库的所有更新操作,或者一个服务产生的所有日志,或者其他类型的时间数据。消息可以附加到流或从流中读取。一个流可以拥有任意数量的消费者,且从一个流读取消息不能删除消息(所以每个消息能有效的广播到所有消费者)。消息可以选择具有相关联

2015-02-12 16:14:11 2691

翻译 【Apache Samza 系列】实时流数据处理框架Samza中文教程 (二)-- 背景

背景本章介绍了关于流式计算的一些背景,描述了什么是samza,以及samza为什么会被构建出来。什么是消息?消息系统是实现近实时的异步计算的流行方式。当有消息产生时可以被放入一个消息队列(ActiveMQ,RabbitMQ)、发布-订阅系统(Kestrel,Kafka)或者日志聚合系统(Flume、Scribe)。下游消费者从这些系统中读取信息,并对其进行处理,或基于该消息的内容执行下一步操作。假设

2015-02-10 17:53:05 2453

翻译 【Apache Samza 系列】实时流数据处理框架Samza中文教程 (一)-- 介绍

What is Samza?Apache Samza 是一个分布式流处理框架。它使用 Apache Kafka 用于消息发送,采用 Apache Hadoop YARN 来提供容错,处理器隔离,安全性和资源管理。专用于实时数据的处理,非常像Twitter的流处理系统Storm。近日,从Apache官方博客中得知,开源的分布式流处理框架Samza历经18个月的孵化期后终于升级成为Apache的顶级项目

2015-02-10 16:50:12 3797

原创 【Apache Flume系列】Flume-ng案例分享及source编码格式问题

流式分析案例场景分析;以及相关的编码处理

2014-12-09 13:51:41 10490 5

原创 【apache solr系列】jcseg与pinyinTokenFilter实现中文缩写查找

结合jcseg以及pinyinTokenFilter实现搜索系统常见功能缩写搜索。

2014-10-27 11:02:32 4985 2

原创 【Apache Solr系列】Solr QueryElevationComponent--实现竞价排名(手动干预)

solrconfig.xml<searchComponent name="elevator" class="org.apache.solr.handler.component.QueryElevationComponent"> string elevate.xml<requestHandler name="/elevate" class="org.apache.solr.h

2014-09-25 17:57:07 4544

原创 【Apache Flume系列】Flume-ng failover 以及Load balance测试及注意事项

Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。这里我主要讲述我测试flume failover(容错)和load balance(负载均衡)的几个场景以及注意的点。

2014-08-14 15:40:31 9332 3

原创 【Twitter Storm系列】Storm环境配置及吞吐量测试调优--个人理解

针对当前热门实时计算技术storm的参数设置总结,已经性能测试!

2014-08-13 15:21:42 7886 7

原创 【Apache Storm系列之四】Storm Topology生命周期【翻译】

前阵子写的文章大部分都是以实践为主,接下来我们来看下Topology生命周期,也就是实现流程这层的东西;

2014-01-26 15:23:30 3851

原创 【Apache Storm系列之五】Stream Grouping:不同组件之间的tuples传递

在详细讲解Storm不同组件之间的tuples传递之前,我们先看下我们的结构图从上面的结构图,我们可以看到。一个topology是spouts和bolts组成的图,而Spout与Blot以及Blot与Blot之间的传递是通过Stream Grouping来完成的。定义一个topology的其中一步是定义每个bolt接收什么样的流作为输入。stream grouping就是用来定义一

2014-01-17 16:51:20 6518

原创 【Apache Solr系列】使用IKAnalyzer中文分词以及自定义分词字典

之前写的Apache Solr只介绍了简单的搭建以及导入数据等功能,最近由于项目要求,添加索引分词和搜索分词功能;分词的项目有包括好几个:

2014-01-16 15:05:43 7490

原创 【Twitter Storm系列】flume-ng+Kafka+Storm+HDFS 实时系统搭建

技术交流群:59701880 深圳广州hadoop好友会微信公众号:后续博客的文档都会转到微信公众号中。一直以来都想接触Storm实时计算这块的东西,最近在群里看到上海一哥们罗宝写的Flume+Kafka+Storm的实时日志流系统的搭建文档,自己也跟着整了一遍,之前罗宝的文章中有一些要注意点没提到的,以后一些写错的点,在这边我会做修正;内容应该说绝大部分引用罗宝的文章的,这里要谢谢罗宝兄弟,还有...

2014-01-15 09:59:05 47947 31

原创 【Apache KafKa系列之一】KafKa安装部署

kafka是一种高吞吐量的分布式发布订阅消息系统,她有如下特性:通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。高吞吐量:即使是非常普通的硬件kafka也可以支持每秒数十万的消息。支持通过kafka服务器和消费机集群来分区消息。支持Hadoop并行数据加载。卡夫卡的目的是提供一个发布订阅解决方案,它可以处理消费者规模的网站中

2014-01-10 10:37:50 29300

原创 【Apache Storm系列之二】Storm-0.9.0.1版本安装部署

Twitter Storm更新0.9.0.1之后,安装部署变得容易得多了,比起Storm0.8.x的版本,Storm少了zeromq和jzmq的安装,也省去了很多编译这些插件时出现的bug。

2014-01-03 11:32:22 16210 3

原创 【Apache Solr系列】SolrCloud+Tomcat7多核安装配置

最近部署正式环境有这样的一个需求,使用SolrCloud部署多核。网上找了很多资料都找不到,自己查了一些资料倒腾倒腾。结果真的被我倒腾出来了!这里会涉及到solr的分布式部署,也就是SolrCloud,以及Solr Replication、Solr分片1、准备工作:环境:两台服务器10.68.237.21 website110.68.237.22 website2

2013-12-30 10:12:26 4277

原创 【HBase运维系列】集群间的数据拷贝-copytable

场景:数据从老环境拷贝到新环境,两个集群建是可以通讯的集群间数据备份包括两种,一种是全停止拷贝,一种是动态备份。动态备份还包括replication、copytable以及export import这里主要讲下copytable的使用。CopyTable是可以复制的部分或全部的表中,既可以在同一个群集或另一个集群的实用程序。用法如下:$ bin/hbase or

2013-12-24 16:33:18 8559

原创 【Twitter Storm系列之三】 storm简单实例分析

Storm实时流计算系统实例讲解

2013-12-18 19:22:39 6939

原创 【Apache Storm系列之一】Storm介绍

接触大数据有一段时间了,大部分使用hadoop比较多,但是hadoop主要的使用场景在于离线系统。现实生活中,一些场景是不允许你有那么长时间的延迟时间,都需要实时数据展示的,显而易见,hadoop是无法满足这种场景下的要求的。Storm 是Twitter的一个开源框架。Storm一个分布式的、容错的实时计算系统,它被托管在GitHub上,遵循 Eclipse Public License

2013-12-16 22:00:49 6290

原创 【Apache Solr系列之五】使用Solr客户端SolrJ实现多层面统计

【Apache Solr系列】使用Solr客户端SolrJ实现多层面统计

2013-12-06 16:17:01 5167

原创 【Apache Solr系列之四】Solr客户端SolrJ API使用文档-查询实例

【Apache Solr系列】Solr客户端SolrJ API使用文档-查询实例

2013-11-27 16:31:46 9242 2

原创 【Apache Solr系列之三】Solr客户端SolrJ API使用文档-增删改

Apache Solr JAVA客户端SolrJ Api使用文档:增删改操作!

2013-11-26 14:41:20 13201

原创 【Apache Solr系列之二】Apache Solr 4.5.1及MYSQL数据增量索引

介绍apache增量索引配置。

2013-11-26 11:58:13 4931

原创 【Apache Solr系列之一】Apache Solr 4.5.1环境搭建及MYSQL数据导入

介绍Apache Solr4.5.1版本的环境搭建,以及利用SOLR导入mysql数据建立索引。

2013-11-26 11:38:55 9168 1

原创 【Apache HBase系列】HBase ORM框架GORA使用文档

HBase ORM框架GORA使用文档:开源框架 Apache GORA 提供了一个内存中的大数据的数据模型和持久性。Gora 支持列存储,关键值存储,文档存储和关系数据库管理系统,具有广泛的Apache Hadoop的MapReduce的支持和分析数据。本文主要介绍了GORA 基于HBase的使用方法,主要参考文献来自于GORA官网。

2013-11-21 17:09:29 4979

原创 【Apache HBase系列】HBASE之RowKey排序解析

HBase RowKey排序ASCII对照表。对于rowkey设计有很大帮助,帮助你选择分隔符和查询条件。

2013-11-15 15:23:53 4395

原创 【Apache Hadoop】MapReuce 编程总结-多MapReduce执行

学习hadoop,必不可少的就是写MapReduce程序,当然,对于简单的分析程序,我们只需一个MapReduce就能搞定,但是对于比较复杂的分析程序,我们可能需要多个Job或者多个Map或者Reduce进行分析计算。 多Job或者多MapReduce的编程形式有以下几种:1、迭代式MapReduce2、依赖关系式MapReuce3、链式MapReduce4、子Job式MapReduce

2013-10-11 09:37:14 7080 1

原创 【Apache Nutch系列】Nutch2.2+hadoop+hbase+zookeeper环境部署

1、下载数据包wget http://archive.apache.org/dist/hbase/hbase-0.90.4/hbase-0.90.4.tar.gzwget http://archive.apache.org/dist/hadoop/common/hadoop-0.20.2/hadoop-0.20.2.tar.gzwget http://mirrors.ust

2013-08-22 13:26:28 5317 1

原创 【HTTPClient 系列】HttpClient4.2.5上传文件,无中文文件名问题

HttpClient4.2.5实现文件上传,无需修改即可实现中文文件名上传,无异常。看了源码之后写的,确实有用。无用可吐槽!

2013-07-15 10:54:22 7466 4

原创 【Apache Nutch系列】Nutch2.0配置安装异常集锦

1、java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfiguration Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfiguration at org.ap

2013-06-28 15:54:26 8309 5

原创 【Apache Hadoop系列】Hadoop1.0.4+zookeeper3.5.4+hbase0.94.5分布式部署

一、HADOOP安装配置步骤1.1、服务器的准备四台Redhat服务器192.168.130.170 master192.168.130.168 dd1192.168.130.162 dd2192.168.130.248 dd31.2、安装和配置JDK环境安装JDK1.6,并在/etc/profile设置好环境变量具体步骤:1.2.1、下载地址:http://ww

2013-02-19 14:57:03 4860

HttpClient4.2.5上传文件,无中文文件名乱码问题

HttpClient4.2.5实现文件上传,无中文文件名乱码问题。亲测无问题。有问题可吐槽!

2013-07-15

hadoop-1.0.4 ecipse插件(并解决0700问题)

hadoop1.0.4插件,本人亲测可行,同时解决0700问题,不过你在自己的安装笨笨中也需替换解决0700的hadoop-core-1.0.4.jar,要保持客户端、服务端以及插件的版本一直才行,要不然会出现一些版本不一致导致的问题。

2012-12-23

解决hadoop 0700Bug 的hadoop-core-1.0.4.jar

该jar包解决了hadoop-1.0.4中的0700问题 ERROR security.UserGroupInformation:PriviledgedActionException as:admin cause:java.io.IOException:Failed to set permissions of path:\home\hadoop\hadoop-1.0.4\data\data\mapred\staging\admin1107758487\.staging to 0700 Execption in threa "main" java.io.IOException:Failed to set permissions of path:\home\hadoop\hadoop-1.0.4\data\data\mapred\staging\admin1107758487\.staging to 0700 at org.apache.hadoop.fs.FileUtil.checkRetrunVlues(FileUtil.java:682) at org.apache.hadoop.fs.FileUtil.setPermission(FileUtil.java.655)

2012-12-23

hadoop-eclipse-1.0.4.jar eclipse插件

自己编译的hadoop eclipse插件jar包,实验了可用!

2012-12-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除