- 博客(52)
- 资源 (4)
- 收藏
- 关注
原创 重磅消息-Apache Flink1.7中文官方文档GitBook大公开
大家好,最近一段时间没有更新公众号,还请大家见谅!现在给大家带来一个好消息,我将公开近期我一直在努力翻译的Apache Flink中文官方文档的GitBook,希望能帮助大家一起学习Flink,一起提升!本文档由我个人耗费2个月时间翻译,个人英语能力有限,有翻译不好的地方希望大伙多加指正。谢谢!!!Flink介绍Apache Flink是一个面向数据流处理和批量数据处理的可分布...
2019-03-21 10:55:47 3109
原创 2018年20个主要的大数据认证
“大数据”一词反映了一个非常实际的增长趋势。到2020年,每个人每秒将产生1.7MB数据。根据调研机构IDC公司的调查,2020年全球数据量将增加到44万亿GB。数以亿计的智能手机和数十亿台物联网(IoT)设备每分钟产生的近300万个Facebook帖子和近300万个视频,每秒约有40,000次谷歌搜索查询。而大数据认证的数量也在不断增加,尽管不尽相同。这些资格来自供应商、教育机构、独立或行业机...
2018-12-18 09:22:28 4878
原创 Flink源码解析 | 从Example出发:理解Flink启动流程
从《Apache Flink本地部署》这篇文章中可以看到,我们启动集群都是通过脚本start-cluster.sh开始执行。我们的源码解析之路就从flink的bash脚本入手。start-cluster.shbin=`dirname "$0"`bin=`cd "$bin"; pwd`. "$bin"/config.sh# Start the JobManager instance...
2018-12-12 21:35:16 2287
原创 Apache Flink本地模式部署
Apache Flink部署模式有好几种,本文主要介绍Apache Flink的本地部署模式。本地部署模式主要用于开发者程序调试测试使用。先决条件运行系统:系统方面没有过多要求,Linux、Mac、Windows均可Java 1.8.x以上,Apache Flink不支持1.8.x以下的版本。检查系统的Java版本$ java -versionjava version "1.8...
2018-12-12 21:28:30 3289
原创 Spark集成TensorflowOnSpark standalone模式下测试mnist
微信公众号(SZBigdata-Club):后续博客的文档都会转到微信公众号中。 1、公众号会持续给大家推送技术文档、学习视频、技术书籍、数据集等。 2、接受大家投稿支持。 3、对于各公司hr招聘的,可以私下联系我,把招聘信息发给我我会在公众号中进行推送。 技术交流群:59701880 深圳广州hadoop好友会 预先条件安装tensorflow环境下载tensorfl...
2018-11-12 15:28:54 1202
原创 Carbondata 1.4.0+Spark 2.2.1 On Yarn集成安装
微信公众号(SZBigdata-Club):后续博客的文档都会转到微信公众号中。 1、公众号会持续给大家推送技术文档、学习视频、技术书籍、数据集等。 2、接受大家投稿支持。 3、对于各公司hr招聘的,可以私下联系我,把招聘信息发给我我会在公众号中进行推送。 技术交流群:59701880 深圳广州hadoop好友会 由于项目需要,近期一直在研究华为开源的carbondata项目,...
2018-11-12 15:26:35 960
翻译 【Apache Beam系列】Apache Beam Pipeline设计
微信公众号(SZBigdata-Club):后续博客的文档都会转到微信公众号中。 1、公众号会持续给大家推送技术文档、学习视频、技术书籍、数据集等。 2、接受大家投稿支持。 3、对于各公司hr招聘的,可以私下联系我,把招聘信息发给我我会在公众号中进行推送。 技术交流群:59701880 深圳广州hadoop好友会 本文主要介绍开发者在开发Apache Beam管道的时候,...
2018-11-12 15:22:26 590
原创 julia第三方包引入方法及JDBC操作
微信公众号(SZBigdata-Club):后续博客的文档都会转到微信公众号中。 1、公众号会持续给大家推送技术文档、学习视频、技术书籍、数据集等。 2、接受大家投稿支持。 3、对于各公司hr招聘的,可以私下联系我,把招聘信息发给我我会在公众号中进行推送。 技术交流群:59701880 深圳广州hadoop好友会 第三方包引入引入Pkgimport Pkg引入第...
2018-11-09 15:40:18 5041
原创 大数据生态圈之流式数据处理框架选择(Storm VS Kafka Streams VS Spark Streaming VS Flink VS Samza)
微信公众号(SZBigdata-Club):后续博客的文档都会转到微信公众号中。 1、公众号会持续给大家推送技术文档、学习视频、技术书籍、数据集等。 2、接受大家投稿支持。 3、对于各公司hr招聘的,可以私下联系我,把招聘信息发给我我会在公众号中进行推送。 技术交流群:59701880 深圳广州hadoop好友会 随着新设备,传感器和技术的出现,数据增长率在不断加速,根据...
2018-11-08 17:09:48 2318
原创 Google黑科技,浏览器上的机器学习框架--Tensorflow.js
Google黑科技,浏览器上的机器学习框架–Tensorflow.js2018年3月30日,谷歌 TenosrFlow 开发者峰会 2018 在美国加州石景山开幕,来自全球的机器学习用户围绕 TensorFlow 展开技术演讲与演示。今年,Tensorflow做的一件很好意思的事情,发布了面向JavaScript开发者全新的学习框架Tensorflow.js,将机器学习搬上了浏览器这个...
2018-04-12 10:20:14 2568
翻译 【Apache Samza 系列】实时流数据处理框架Samza中文教程 (三)-- 概念
概念本章介绍在Samza高层次的概念。Streams(流)Samza处理流。流则是由一系列不可变相似类型的消息组成。举个例子,一个流可能是网站所有的点击事件,或者到一个特定数据库的所有更新操作,或者一个服务产生的所有日志,或者其他类型的时间数据。消息可以附加到流或从流中读取。一个流可以拥有任意数量的消费者,且从一个流读取消息不能删除消息(所以每个消息能有效的广播到所有消费者)。消息可以选择具有相关联
2015-02-12 16:14:11 2691
翻译 【Apache Samza 系列】实时流数据处理框架Samza中文教程 (二)-- 背景
背景本章介绍了关于流式计算的一些背景,描述了什么是samza,以及samza为什么会被构建出来。什么是消息?消息系统是实现近实时的异步计算的流行方式。当有消息产生时可以被放入一个消息队列(ActiveMQ,RabbitMQ)、发布-订阅系统(Kestrel,Kafka)或者日志聚合系统(Flume、Scribe)。下游消费者从这些系统中读取信息,并对其进行处理,或基于该消息的内容执行下一步操作。假设
2015-02-10 17:53:05 2453
翻译 【Apache Samza 系列】实时流数据处理框架Samza中文教程 (一)-- 介绍
What is Samza?Apache Samza 是一个分布式流处理框架。它使用 Apache Kafka 用于消息发送,采用 Apache Hadoop YARN 来提供容错,处理器隔离,安全性和资源管理。专用于实时数据的处理,非常像Twitter的流处理系统Storm。近日,从Apache官方博客中得知,开源的分布式流处理框架Samza历经18个月的孵化期后终于升级成为Apache的顶级项目
2015-02-10 16:50:12 3797
原创 【apache solr系列】jcseg与pinyinTokenFilter实现中文缩写查找
结合jcseg以及pinyinTokenFilter实现搜索系统常见功能缩写搜索。
2014-10-27 11:02:32 4985 2
原创 【Apache Solr系列】Solr QueryElevationComponent--实现竞价排名(手动干预)
solrconfig.xml<searchComponent name="elevator" class="org.apache.solr.handler.component.QueryElevationComponent"> string elevate.xml<requestHandler name="/elevate" class="org.apache.solr.h
2014-09-25 17:57:07 4544
原创 【Apache Flume系列】Flume-ng failover 以及Load balance测试及注意事项
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。这里我主要讲述我测试flume failover(容错)和load balance(负载均衡)的几个场景以及注意的点。
2014-08-14 15:40:31 9332 3
原创 【Twitter Storm系列】Storm环境配置及吞吐量测试调优--个人理解
针对当前热门实时计算技术storm的参数设置总结,已经性能测试!
2014-08-13 15:21:42 7886 7
原创 【Apache Storm系列之四】Storm Topology生命周期【翻译】
前阵子写的文章大部分都是以实践为主,接下来我们来看下Topology生命周期,也就是实现流程这层的东西;
2014-01-26 15:23:30 3851
原创 【Apache Storm系列之五】Stream Grouping:不同组件之间的tuples传递
在详细讲解Storm不同组件之间的tuples传递之前,我们先看下我们的结构图从上面的结构图,我们可以看到。一个topology是spouts和bolts组成的图,而Spout与Blot以及Blot与Blot之间的传递是通过Stream Grouping来完成的。定义一个topology的其中一步是定义每个bolt接收什么样的流作为输入。stream grouping就是用来定义一
2014-01-17 16:51:20 6518
原创 【Apache Solr系列】使用IKAnalyzer中文分词以及自定义分词字典
之前写的Apache Solr只介绍了简单的搭建以及导入数据等功能,最近由于项目要求,添加索引分词和搜索分词功能;分词的项目有包括好几个:
2014-01-16 15:05:43 7490
原创 【Twitter Storm系列】flume-ng+Kafka+Storm+HDFS 实时系统搭建
技术交流群:59701880 深圳广州hadoop好友会微信公众号:后续博客的文档都会转到微信公众号中。一直以来都想接触Storm实时计算这块的东西,最近在群里看到上海一哥们罗宝写的Flume+Kafka+Storm的实时日志流系统的搭建文档,自己也跟着整了一遍,之前罗宝的文章中有一些要注意点没提到的,以后一些写错的点,在这边我会做修正;内容应该说绝大部分引用罗宝的文章的,这里要谢谢罗宝兄弟,还有...
2014-01-15 09:59:05 47947 31
原创 【Apache KafKa系列之一】KafKa安装部署
kafka是一种高吞吐量的分布式发布订阅消息系统,她有如下特性:通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。高吞吐量:即使是非常普通的硬件kafka也可以支持每秒数十万的消息。支持通过kafka服务器和消费机集群来分区消息。支持Hadoop并行数据加载。卡夫卡的目的是提供一个发布订阅解决方案,它可以处理消费者规模的网站中
2014-01-10 10:37:50 29300
原创 【Apache Storm系列之二】Storm-0.9.0.1版本安装部署
Twitter Storm更新0.9.0.1之后,安装部署变得容易得多了,比起Storm0.8.x的版本,Storm少了zeromq和jzmq的安装,也省去了很多编译这些插件时出现的bug。
2014-01-03 11:32:22 16210 3
原创 【Apache Solr系列】SolrCloud+Tomcat7多核安装配置
最近部署正式环境有这样的一个需求,使用SolrCloud部署多核。网上找了很多资料都找不到,自己查了一些资料倒腾倒腾。结果真的被我倒腾出来了!这里会涉及到solr的分布式部署,也就是SolrCloud,以及Solr Replication、Solr分片1、准备工作:环境:两台服务器10.68.237.21 website110.68.237.22 website2
2013-12-30 10:12:26 4277
原创 【HBase运维系列】集群间的数据拷贝-copytable
场景:数据从老环境拷贝到新环境,两个集群建是可以通讯的集群间数据备份包括两种,一种是全停止拷贝,一种是动态备份。动态备份还包括replication、copytable以及export import这里主要讲下copytable的使用。CopyTable是可以复制的部分或全部的表中,既可以在同一个群集或另一个集群的实用程序。用法如下:$ bin/hbase or
2013-12-24 16:33:18 8559
原创 【Apache Storm系列之一】Storm介绍
接触大数据有一段时间了,大部分使用hadoop比较多,但是hadoop主要的使用场景在于离线系统。现实生活中,一些场景是不允许你有那么长时间的延迟时间,都需要实时数据展示的,显而易见,hadoop是无法满足这种场景下的要求的。Storm 是Twitter的一个开源框架。Storm一个分布式的、容错的实时计算系统,它被托管在GitHub上,遵循 Eclipse Public License
2013-12-16 22:00:49 6290
原创 【Apache Solr系列之五】使用Solr客户端SolrJ实现多层面统计
【Apache Solr系列】使用Solr客户端SolrJ实现多层面统计
2013-12-06 16:17:01 5167
原创 【Apache Solr系列之四】Solr客户端SolrJ API使用文档-查询实例
【Apache Solr系列】Solr客户端SolrJ API使用文档-查询实例
2013-11-27 16:31:46 9242 2
原创 【Apache Solr系列之三】Solr客户端SolrJ API使用文档-增删改
Apache Solr JAVA客户端SolrJ Api使用文档:增删改操作!
2013-11-26 14:41:20 13201
原创 【Apache Solr系列之一】Apache Solr 4.5.1环境搭建及MYSQL数据导入
介绍Apache Solr4.5.1版本的环境搭建,以及利用SOLR导入mysql数据建立索引。
2013-11-26 11:38:55 9168 1
原创 【Apache HBase系列】HBase ORM框架GORA使用文档
HBase ORM框架GORA使用文档:开源框架 Apache GORA 提供了一个内存中的大数据的数据模型和持久性。Gora 支持列存储,关键值存储,文档存储和关系数据库管理系统,具有广泛的Apache Hadoop的MapReduce的支持和分析数据。本文主要介绍了GORA 基于HBase的使用方法,主要参考文献来自于GORA官网。
2013-11-21 17:09:29 4979
原创 【Apache HBase系列】HBASE之RowKey排序解析
HBase RowKey排序ASCII对照表。对于rowkey设计有很大帮助,帮助你选择分隔符和查询条件。
2013-11-15 15:23:53 4395
原创 【Apache Hadoop】MapReuce 编程总结-多MapReduce执行
学习hadoop,必不可少的就是写MapReduce程序,当然,对于简单的分析程序,我们只需一个MapReduce就能搞定,但是对于比较复杂的分析程序,我们可能需要多个Job或者多个Map或者Reduce进行分析计算。 多Job或者多MapReduce的编程形式有以下几种:1、迭代式MapReduce2、依赖关系式MapReuce3、链式MapReduce4、子Job式MapReduce
2013-10-11 09:37:14 7080 1
原创 【Apache Nutch系列】Nutch2.2+hadoop+hbase+zookeeper环境部署
1、下载数据包wget http://archive.apache.org/dist/hbase/hbase-0.90.4/hbase-0.90.4.tar.gzwget http://archive.apache.org/dist/hadoop/common/hadoop-0.20.2/hadoop-0.20.2.tar.gzwget http://mirrors.ust
2013-08-22 13:26:28 5317 1
原创 【HTTPClient 系列】HttpClient4.2.5上传文件,无中文文件名问题
HttpClient4.2.5实现文件上传,无需修改即可实现中文文件名上传,无异常。看了源码之后写的,确实有用。无用可吐槽!
2013-07-15 10:54:22 7466 4
原创 【Apache Nutch系列】Nutch2.0配置安装异常集锦
1、java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfiguration Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfiguration at org.ap
2013-06-28 15:54:26 8309 5
原创 【Apache Hadoop系列】Hadoop1.0.4+zookeeper3.5.4+hbase0.94.5分布式部署
一、HADOOP安装配置步骤1.1、服务器的准备四台Redhat服务器192.168.130.170 master192.168.130.168 dd1192.168.130.162 dd2192.168.130.248 dd31.2、安装和配置JDK环境安装JDK1.6,并在/etc/profile设置好环境变量具体步骤:1.2.1、下载地址:http://ww
2013-02-19 14:57:03 4860
hadoop-1.0.4 ecipse插件(并解决0700问题)
2012-12-23
解决hadoop 0700Bug 的hadoop-core-1.0.4.jar
2012-12-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人