大数据
文章平均质量分 83
qq_23660243
这个作者很懒,什么都没留下…
展开
-
CDH在Centos 7离线安装
由于本人原来都是采用在线安装方式,使用公司港台服务器代理,速度还是很可观的。不过最近要求在Centos 7上离线安装,有点坑,网上的很多都是抄来抄去,安装到一半可能就走不下去,这里是本人亲测,遇到的问题都一一说明并且解决掉。这里趟了一遍,希望对读者有帮助。不说废话,进入主题:Cloudera官网给出三种安装方式,我们采用PathC,使用下载好的包进行安装。我这里只使用本地虚拟机来进行安装说明:原创 2017-03-08 14:15:33 · 13178 阅读 · 2 评论 -
Spark源码解析(一)
RDD之getNarrowAncestors内部方法分析最近开始spark的源码攻关,其实看源码一直是我最怕的东西,因为太多、太杂、太深导致不能够很好的把我脉络导致每次最后都放弃。有人跟我说看源码可以阶段性一个方法一个方法的去学习,去看,每天积累一点总会成功,那么今天开始我的第一天spark源码分析。我这里从spark最基本的RDD中的方法说起,我感觉这样会更容易一些。同时我只对其中感觉比原创 2016-07-14 14:43:30 · 802 阅读 · 0 评论 -
spark-streaming入门(三)
Spark Streaming + Flume Integration GuideApache Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. Here we expla原创 2016-05-28 14:42:06 · 876 阅读 · 0 评论 -
spark-streaming入门(二)
Input DStreams and ReceiversInput DStreams are DStreams representing the stream of input data received from streaming sources. In the quick example, lines was an input DStream as it represented th原创 2016-05-26 22:45:54 · 10067 阅读 · 0 评论 -
spark-streaming入门(一)
spark-streaming官方提供的资料还是很全的,不多说,直接开始官方文档阅读,由于每个人对英文中一些细节理解不通,所以附上原文,以后还会慢慢跟进,因为官方中有许多细节是自己平时使用时不曾了解到的。Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput,原创 2016-05-23 14:38:58 · 1890 阅读 · 0 评论 -
Spark兼容Hive入门解析
最近使用spark兼容hive进行开发,所以静下心来简易的看了一遍。个人感觉有关与技术学习去官网是最正确的选择。所以我从官方网站入手开始将,其他详细内容我不做过多介绍,这里直接开门见山。官方网站有如下两点很重要:Spark SQL also supports reading and writing data stored in Apache Hive. However, since原创 2016-05-21 22:46:07 · 4980 阅读 · 1 评论 -
Spark算子reduceByKey深度解析
最近经常使用到reduceByKey这个算子,懵逼的时间占据多数,所以沉下心来翻墙上国外的帖子仔细过了一遍,发现一篇不错的,在此加上个人的理解整体过一遍这个算子,那么我们开始:国外的大牛一上来给出这么一句话,个人感觉高度概括了reduceByKey的功能:Spark RDD reduceByKey function merges the values for each key using原创 2016-05-17 13:44:45 · 50626 阅读 · 12 评论 -
我的hadoop大数据之路(四)
今天继续hadoop的讲解。只不过目前我的集群做了些改变,以下是我的hadoop新的集群的机器及ip地址:机器名ip地址sun192.168.152.3moon192.168.152.4jupiter192.168.152.5neptune192.168.152.6上次讲到了集群的环境和配置原创 2016-05-03 23:36:12 · 588 阅读 · 0 评论 -
Hive distribute 问题
今天在使用Hive的时候遇到了一个十分有这意思的问题,感觉有必要记录一下。大体情况是这样的,我数据库表中有一个mytest的表,只有一个word的string类型字符串。表格很简单,如下:里面的内容很简单,全部是字母:使用hive首先分区,分成6个(我认为这里有六种不同的字母,所以分六个桶,分别存放),然后将结果输出到本地文件夹下。操作步骤为:set mapred.redu原创 2016-04-18 23:30:10 · 2411 阅读 · 0 评论 -
我的hadoop大数据之路(三)
最近忙的太厉害,一直没有时间总结一下,明天休息,所以感觉是时候来一发了。这里继续hadoop的历程。本次详细讲解一下hadoop的集群模式。上次运行的实在单机的单节点情况下进行的,也就是所谓的为分布式,我的本地环境简介如下(前面是主机名,后面是ip地址,我配的是静态的,怎么配此处不做过多简介):sun192.168.152.1jupiter192.168原创 2016-04-15 22:54:47 · 7764 阅读 · 0 评论 -
我的hadoop大数据之路(二)
这两天公司年会什么的耽误了,两天没学习了,今天继续大数据。这里出现个问题,耽误了很久,下面会详细说。 hadoop的安装包中的conf目录,那里有很多配置,但只需对其中的三个文件进行修改:core-site.xml,hdfs-site.xml 和mapred-site.xml。 1、首先我们修改core-site.xml文件: fs.default.name原创 2016-01-27 21:59:45 · 575 阅读 · 0 评论 -
Spark源码解析(二)
这次继续上次的地方,我这里只挑我个人感觉不有意义的方法来讲,有些是内部的private方法,有些是展现给我们的外部方法。这里主要讲的方法是他的内部方法withScope,方法如下:/** * Execute a block of code in a scope such that all new RDDs created in this body will * be part of t原创 2016-07-22 10:05:23 · 1201 阅读 · 0 评论 -
spark提交
这次主要讲一下spark的提交具体操作和流程。原来一直用,也没怎么深入查看,那么这次就来仔细看一下提交的学问。跟我们以前一样,我们以官网下手。这里我不在把英文贴上,直接进行。在spark的bin文件夹下的spark-submit脚本是用来提交应用的。它能够通过一个统一的接口来使用所有spark支持的集群管理器,所以我们不必单独配置每一个应用。如果你的代码依赖其他的项目,那么你需要与应用程序原创 2016-08-03 10:24:38 · 1078 阅读 · 0 评论 -
Beam从零开始(一)
网上看了别人都在谈Beam,你说咱们作为技术人员技术也得紧跟着时代不是,所以也开始利用业余时间研究Beam。咱不是大神,不能啥都一看就会,所以一天一天来,这个也就作为笔记吧。废话不多说,进入主题,按照老规矩,从官网入手。其实Beam官网目前做的不是很丰满,不过好在按照步骤进行,可以接受。Beam是什么呢?英文中Beam是光束的意思,官方对Beam的解释是:Apache Beam是一个开源的原创 2017-01-19 15:20:10 · 36828 阅读 · 5 评论 -
Storm-declareOutputFields-declare
最近项目需要开始接触storm,感觉跟spark差距还是不小的,不过每个平台都有各自的优势,不做过多评价。有个地方,一直困扰了我好久,就是不管是spout实现类还是bolt实现类里面都有个declareOutputFields的方法,后面declare出去的东西我是真看不明白有啥用,然后按照官网看了一下,结合自身理解在此梳理一下,如果有同学有同样的问题希望能给你解惑。如图,这是我的原创 2016-12-29 16:53:52 · 4187 阅读 · 0 评论 -
SparkStreaming updateStateByKey 使用
updateStateByKey算子经常在实时计算时使用,最常见的就是wordCount类型的统计需求,那么这里使用官网并结合自己一些网上看的一些例子写的demo,如下:官方:updateStateByKey允许你在持续更新信息的过程中随意获取状态。想要使用这个输入流,你需要以下两步:1 定义状态--状态可以是任意的数据类型2 定义状态更新函数--指定一个如何更新状态的函数,该原创 2016-12-22 17:14:57 · 1633 阅读 · 0 评论 -
Apache Flume(二)
继续上文的flume进行学习,不多说, 直接进入主题。Flume支持根据zookeeper的agent的配置。这是个实验性的特征(我估计这么说可能说明目前还不是很稳定,猜的),配置文件需要上传到zookeeper上面,有着配置文件的后缀。配置文件被保存在zookeeper的节点数据中,以下是节点树查看agent的a1和a2:- /flume |- /a1 [Agent config翻译 2016-08-15 12:11:41 · 584 阅读 · 0 评论 -
Apache Flume(一)
今天详细学习一下flume,原来都是琐琐碎碎,仅限于使用。不多说,还是从官方网站开始。Apache Flume是一个分布式、可靠的、可用的系统,该系统用来高效的收集、聚合、移动那些存储在不同数据源的大量日志数据到中心数据存储点。Apache Flume不仅仅限于日志的数据聚合,因为数据源是自定义的。Flume可以传输大量的日志数据事件数据,不仅仅包含网络交易日志、社交媒体日志、邮件信息,还翻译 2016-08-10 15:08:31 · 671 阅读 · 0 评论 -
JAVA_Kafka_producer_consumer
消费者代码:import java.util.HashMap;import java.util.List;import java.util.Map;import java.util.Properties;import java.util.concurrent.ExecutorService;import kafka.consumer.Consumer;import kafka原创 2016-08-10 09:37:07 · 554 阅读 · 0 评论 -
Apache Kafka(三)
我们继续之前的所述,继续kafka的学习。第八部(使用kafka流来处理数据):kafka stream是kafka的一个客户端包,这个包用来实时处理和分析保存在kafka brokers中的数据。以下这个简短的例子将会讲解如何在使用这个包运行实时处理的应用。下面是WordCountDemo的核心代码:它实现了wordcount算法,也就是统计从输入源读取的内容中单词出现的次数。但翻译 2016-08-09 10:37:19 · 635 阅读 · 0 评论 -
Apache Kafka 实战从零开始(一)
不多说,咱们直接进入主题,那么我这里介绍一下我的环境。我用的是mac本,没有往本机装虚拟机,所以我用的是我的阿里云主机,穷滴很,就单节点吧咳咳。那么首先说一下,由于我们的Kafka需要zookeeper的支持,所以在安装kafka之前我强烈建议先安装一下zookeeper,虽然kafka有个内带的很low的zookeeper方便调试,但是建议不要用,为啥?因为low,不用!那么又因为zooke原创 2016-08-08 16:46:51 · 4265 阅读 · 0 评论 -
Apache Kafka(二)
那么这次我们进行kafka的简单应用。第一步(下载代码):下载0.10.0.0版本并且解压,可以使用命令:tar -xvf kafka-2.11-0.10.0.0.tgz接着我们进入解压后的目录:cd kafka-2.11-0.10.0.0第二步(启动服务):kafka需要使用zookeeper,所以我们需要提前安装zookeeper并且启动。如果没有安装的话,你可以使用kaf翻译 2016-08-08 14:52:47 · 455 阅读 · 0 评论 -
Apache Kafka(一)
Kafka讲解介绍kafka是一个分布式的,分区的,可备份的日志提交服务。它提供了消息系统的功能,但是设计确实独一无二。这些意味着什么呢?首先我们介绍一些术语:1. Kafka获取的消息在类型上叫做topics2. 我们把生产消息到kafka的进程叫做producer(生产者)3. 我们称订阅topic并且处理kafka获得的消息的进程叫做consumer(消费者)翻译 2016-08-05 14:02:57 · 675 阅读 · 0 评论 -
我的hadoop大数据之路(一)
这里写下这些并不是要表现是很,我只能说我对大数据目前为止一无所知,这是我的起点,是我的转型之路。我刚毕业不到半年,我的路还很长,我会坚定不移的走下去。 首先说明一下我这里的内容都是最最基础的hadoop内容,高手大大们可以绕路了。那么这里首先要说一下环境:vmworkstation(虚拟机,版本自己选吧,我用的是12),系统是centos6.5(不是我不想用7,我的电脑带7真的很费劲很费原创 2016-01-20 21:43:50 · 762 阅读 · 0 评论