大数据
暗夜猎手-大魔王
热爱运动,喜欢跑步
展开
-
Flume+Kafka+Storm+Redis构建大数据实时处理系统:实时统计网站PV、UV+展示
转载自:http://blog.51cto.com/xpleaf/21041601 大数据处理的常用方法前面在我的另一篇文章中《大数据采集、清洗、处理:使用MapReduce进行离线数据分析完整案例》中已经有提及到,这里依然给出下面的图示:前面给出的那篇文章是基于MapReduce的离线数据分析案例,其通过对网站产生的用户访问日志进行处理并分析出该网站在某天的PV、UV等数据,对应...转载 2018-12-25 15:57:20 · 518 阅读 · 1 评论 -
Hadoop--MapReduce5--倒排索引
日常检索时输入某一个关键字输出与这个关键字有关的文档列表,如果将文档名称看做key,文档内容看成value,一般检索可以通过key来检索value,现在如果把文档中内容碎片化,抽取关键词,然后处理所有文件,可以得到一个以关键词为key,value为文档列表的倒排文档列表,这样便实现了倒排索引。需求:有大量的文本文档,如下所示:a.txthello tomhell...原创 2019-03-04 19:13:38 · 194 阅读 · 0 评论 -
Hadoop--MapReduce6--控制输入输出格式
在mapreduce处理过程中,map阶段处理数据,得到一系列key-value,然后由reduce将相同key进行聚合,maptask任务会分布在不同机器上执行,输出结果保存在运行机器上,reducetask首先需要将map输出文件下载本地运行机器,因此map以及reduce阶段输出文件的格式很重要,使用简洁格式可以大大减少数据的传输量。在提交任务运行时,可以通过Job对象s...原创 2019-03-04 19:42:45 · 228 阅读 · 0 评论 -
Hadoop--MapReduce7--自定义GroupingComparator
在reduce中,相同key会聚合到一起作为一组,每一组都会按照一定的规则来排序GroupingComparator给定以下数据,每一行分别表示一条线段的左右端点1,42,53,42,64,75,85,96,1010,1511,1612,1813,17求点交错的层数例如1交错1层(1,4) 2交错3层(1,4)(2,5)(2,6)map : 输入每一行...原创 2019-03-07 16:55:42 · 253 阅读 · 0 评论 -
Hadoop--MapReduce8--Join算法
现有user表以及order表,要求利用MapReduce实现两张表的userId字段join算法。user表u001,senge,18,angelababyu002,laozhao,48,ruhuau003,xiaoxu,16,chungeu004,laoyang,28,zenggeu005,nana,14,huangboorder表order001,u001ord...原创 2019-03-15 17:33:44 · 234 阅读 · 0 评论 -
Hadoop--MapReduce9--数据倾斜
统计下面文本的wordcounta a a a a a b b b a a a a a a a c c b c a a a ca b b c a a d d e e f ff g a a a b a b h h g ja a a a a a b b b a a a a a a a a a b b b a a a a a a a a a b b b a a a a a a a a...原创 2019-03-18 19:17:09 · 160 阅读 · 0 评论 -
Hadoop--MapReduce10--工作机制
以WordCount为例,研究一下MapReduce的内部工作机制。统计某个输入目录下所有文件中每个单词以及出现的次数。map阶段:读取数据每一行,切分数据,单词作为key,次数1作为value,输出到context中。reduce阶段:接受来自map阶段的输出,按照相同key来聚合分组,每一组执行一次reduce方法,累加,将结果写入到context中。最终MapReduce运行...原创 2019-03-18 21:51:31 · 172 阅读 · 0 评论 -
ElasticSearch--安装及Restful API使用
Elasticsearch是一个基于Apache Lucene(TM)的开源搜索引擎。Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。想要使用它,你必须使用Java来作为开发语言并将其直接集成到你的应用中,更糟糕的是,Lucene非常复杂,你需要深入了解检索的相关知识来理解它是如何工作的。Elasticsearch使用Java开发并使用Lucene作为其核心来实现所有索引...原创 2019-03-23 20:00:57 · 519 阅读 · 0 评论 -
ElasticSearch--JAVA API使用
JAVA API链接参考地址:不同API版本有一些不同语法要特别注意。https://www.elastic.co/guide/en/elasticsearch/client/java-api/6.3/java-search-terminate-after.html这里es使用6.3.2版本,pom导入客户端包。 <!-- es的客户端--> ...原创 2019-03-24 10:27:44 · 243 阅读 · 0 评论 -
ZooKeeper--集群部署安装
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。 搭建ZooKeeper集群,学习zk相关知识。安装ZooKeeper-3...原创 2019-04-10 11:26:02 · 231 阅读 · 0 评论 -
Hadoop--MapReduce4--求解Topn问题
给定数据文件格式如下所示:2017/07/28 qq.com/a2017/07/28 qq.com/bx2017/07/28 qq.com/by2017/07/28 qq.com/by32017/07/28 qq.com/news2017/07/28 sina.com/news/socail2017/07/28 163.com/ac2017/07/28 sina.com/new...原创 2019-02-28 21:00:03 · 399 阅读 · 0 评论 -
Hadoop--MapReduce3--自定义Partitioner
在MapReduce处理过程中,map阶段每个maptask读取负责的文件切片,输入key为行的起始偏移量,输入value为行的内容;输出key-value为自定义类型,然后每个map将各自产生的key-value分发到不同的reducetask,相同的key必将分发到同一个reducetask以实现相同key数据聚合,其基本原理如下: 每个maptask在分发数据时其由Parti...原创 2019-02-27 21:04:02 · 555 阅读 · 0 评论 -
Hadoop--MapReduce2--自定义序列化数据类型
在MapReduce编程模型中,Map阶段以及Reduce阶段都需要对输入输出的数据进行序列化以及反序列化,因此输入输出的参数必须实现特定的接口Writable,具体来说Hadoop对基本数据类型已做封装如Text,LongWritable,IntWritable,FloatWritable,NullWritable等。Writable接口定义如下:@Public@Sta...原创 2019-02-27 20:27:31 · 1347 阅读 · 0 评论 -
大数据采集、清洗、处理:使用MapReduce进行离线数据分析完整案例
转载自:http://blog.51cto.com/xpleaf/20958361 大数据处理的常用方法大数据处理目前比较流行的是两种方法,一种是离线处理,一种是在线处理,基本处理架构如下:在互联网应用中,不管是哪一种处理方式,其基本的数据来源都是日志数据,例如对于web应用来说,则可能是用户的访问日志、用户的点击日志等。如果对于数据的分析结果在时间上有比较严格的要求,则可以采...转载 2018-12-25 15:53:03 · 730 阅读 · 0 评论 -
一场好好的年会,被程序员变成了代码讨论大会!是一种什么体验?
&nbsp;最近某公司举行了一场年会,本来热热闹闹,结果被程序员给搅糊了,当然也还是热热闹闹,讨论代码热闹着呢!程序员兄弟们实在是太敬业了,这种精神我是比不上啊,生活处处是代码,哪里有程序员哪里就有代码。总之大家度过了一个难忘的年会。。。场面有点控制不住了。哈哈哈,这是想笑死我! ...转载 2019-01-17 09:22:54 · 300 阅读 · 0 评论 -
大数据学习路线整理
首先看一下大神对于大数据生态的技术变迁与研究:大数据本质也是数据,但是又有了新的特征,包括数据来源广、数据格式多样化(结构化数据、非结构化数据、Excel文件、文本文件等)、数据量大(最少也是TB级别的、甚至可能是PB级别)、数据增长速度快等。针对以上主要的4个特征我们需要考虑以下问题: 数据来源广,该如何采集汇总?,对应出现了Sqoop,Cammel,Datax等工具。 ...原创 2019-02-02 15:37:03 · 225 阅读 · 0 评论 -
Hadoop--分布式文件系统HDFS--环境搭建
HDFS为Hadoop提供的分布式文件系统,实现将文件分布式存储在很多机器上。hdfs有着文件系统共同的特征:有目录结构,顶层目录是: / 系统中存放的是文件 系统可以提供对文件的:创建、删除、修改、查看、移动等功能HDFS集群组建: 搭建Hadoop环境:搭建一个NameNode以及两个个DataNo...原创 2019-02-16 20:54:14 · 840 阅读 · 0 评论 -
Hadoop--分布式文件系统HDFS--HDFS原理解析
HDFS是一种分布式文件系统,能够实现对于文件的分布式存储管理等功能。系统组成客户把一个文件存入hdfs,其实hdfs会把这个文件切块后,分散存储在N台linux机器系统中(负责存储文件块的角色:data node)<切块的行为是由客户端决定的>。一旦文件被切块存储,那么,hdfs中就必须有一个机制,来记录用户的每一个文件的切块信息,及每一块的具体存储机器(负责记录块信息的角色...原创 2019-02-22 10:39:33 · 596 阅读 · 0 评论 -
Hadoop--分布式调度平台YARN--YARN集群搭建
Yarn是Hadoop提供的自动化调度平台,可以实现MapReduce计算任务的自动化调度。yarn是一个分布式程序的运行调度平台。yarn中有两大核心角色:Resource Manager接受用户提交的分布式计算程序,并为其划分资源管理、监控各个Node Manager上的资源情况,以便于均衡负载Node Manager管理它所在机器的运算资源(cpu + 内存)...原创 2019-02-22 16:01:00 · 414 阅读 · 0 评论 -
Hadoop--MapReduce1--WordCount实现
利用MapRuduce来统计HDFS中指定目录下所有文件中单词以及单词出现的次数,结果输出到另一个HDFS目录中。待统计HDFS目录/wordcount/input/input 待统计文件示意: MapReduce分布式计算框架map阶段:读取文本文件中的每一行,执行map方法,将处理结果key...原创 2019-02-22 18:03:08 · 556 阅读 · 0 评论 -
Hadoop--分布式文件系统HDFS--Java客户端调用
启动HDFS集群,集群示意图如下:hadoop-01作为NameNode同时也作为DataNode hadoop-02作为DataNode 使用Java客户端来对HDFS文件系统进行操作管理,首先建立工程,导入所需Jar包,主要包括hadoop/share/hadoop目录下common包以及hdfs包下的jar包。使用Java客户端主要使用FileS...原创 2019-02-18 09:51:13 · 475 阅读 · 1 评论 -
大数据--人工智能视频学习资料分享
计算机基础课程分享计算机组成原理--哈工大链接: https://pan.baidu.com/s/19JORvDfGKXx5Goj2sIhMRw 提取码: 75z7B站链接:https://www.bilibili.com/video/av15123338大数据资料分享牛牛学堂链接:https://pan.baidu.com/s/1LMm7KnRSlaHdnYnuxcR...原创 2019-02-27 17:28:18 · 2592 阅读 · 6 评论 -
ZooKeeper--Java API使用
使用Java Client来连接服务端,进行数据节点的管理操作。1. 关于版本说明使用Maven来管理工程,需要导入ZooKeeper包,这里注意如果导入jar包版本不合理会出现错误:org.apache.zookeeper.KeeperException$ConnectionLossException: KeeperErrorCode = ConnectionLoss for由于...原创 2019-04-10 15:01:44 · 153 阅读 · 0 评论