![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 93
一半@java
这个作者很懒,什么都没留下…
展开
-
离线分析:Flume+Kafka+HBase+Hadoop通话数据统计
项目背景通信运营商每时每刻会产生大量的通信数据,例如通话记录,短信记录,彩信记录,第三方服务资费等等繁多信息。数据量如此巨大,除了要满足用户的实时查询和展示之外,还需要定时定期的对已有数据进行离线的分析处理。例如,当日话单,月度话单,季度话单,年度话单,通话详情,通话记录等等+。我们以此为背景,寻找一个切入点,学习其中的方法论。当前我们的需求是:统计每天、每月以及每年的每个人的通话次数及时长。项目架构说明:1、用户通过时,通过应用服务生成主叫、被叫、通话时间、通话时长等日志信息,日志信息打印到日原创 2021-05-24 14:56:03 · 4872 阅读 · 5 评论 -
任务调度器Azakaban3.80.1详细教程
Azkaban简介Azkaban是一个分布式工作流管理器,被LinkedIn用来解决Hadoop的作业依赖性问题。我们从ETL作业到数据分析产品中也有许多工作需要按照顺序运行。使用场景在大数据业务处理场景中,经常有这样的分析场景:任务A:将收集到的数据通过一系列的规则进行清洗,然后存入Hive表a中。任务B:将Hive中已存在的b表和c表进行关联得到表d。任务C:将A任务得到的表a与B任务得到的表d进行关联得到分析的结果表e。任务D:最后将Hive中得到的表e通过sqoop导入到关系型数据库原创 2021-04-30 14:40:47 · 1431 阅读 · 0 评论 -
实时分析:Flume+Kafka+SparkStreaming商品评分排行榜
写在前面接上一篇《Flume+Kafka数据采集与清洗》。本文主要介绍用流计算SparkStreaming对数据进行实时处理。流计算概念实时获取来自不同数据源的海量数据,经过实时 分析处理,获得有价值的信息流计算秉承一个基本理念,即数据的价值随着时间的流逝而降低, 如用户点击流。因此,当事件出现时就应该立即进行处理,而不是缓 存起来进行批量处理。为了及时处理流数据,就需要一个低延迟、可 扩展、高可靠的处理引擎对于一个流计算系统来说,它应达到如下需求:高性能海量式实时性分布原创 2021-04-29 10:43:28 · 1086 阅读 · 0 评论 -
Flume+Kafka数据采集与清洗
项目说明实现功能模拟实时推荐系统中,数据实时采集与数据预处理,并用Kafka进行数据实时消费功能。实现场景用户对商品进行评分,后台实时对其进行获取与分析,并经过计算后,生成实时推荐结果。项目架构图主要工具说明FlumeFlume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。当前Flume原创 2021-04-26 15:25:52 · 3640 阅读 · 0 评论 -
Java版Spark离线统计分析实战
写在前面本文系统环境:在windows中安装VMware,VMware中装CentOS7.9.2009系统为。本文中需要用到的大数据组件有Hadoop、Spark及MongoDB数据库。均在CentOS中安装。本文中运行的程序是在windows中的Idea编辑器中进行编写,且为用Java编写,非Scala。版本说明Hadoop 2.10.1Spark 3.1.1MongoDB 3.4.3JDK 1.8功能概述本文设计两类信息,一类是产品信息,另一类是评分信息。产品产品id标原创 2021-04-23 17:28:01 · 1016 阅读 · 0 评论 -
Storm0.9.6安装教程
分布式实时流计算框架Storm广泛应用于实时日志分析、个性化推荐、实时监控等应用场景中。本教程介绍了如何在单机上安装、运行Storm。环境说明组件版本CentOS 7.9.2009JDK 1.8Storm 0.9.6Zookeeper 3.6.3Pyhton 2.7CentOS 7.9.2009中自带python2.7,所以我们在安装Storm之前还需要安装JDK和Zookeeper。文中所有压缩包都是下载与解压到hadoop用户的家目录(/home/hadoop)中。JDK.原创 2021-04-19 14:43:07 · 337 阅读 · 0 评论 -
Spark3.1.1入门
写在前面说明Spark可以独立安装试使用,也可以和Hadoop一起安装使用。本文为配合Hadoop使用,这样就可以让Spark使用HDFS存取数据。组件版本CentOS 7.9.2009Hadoop 2.10.1JDK 1.8Spark 3.1.1相关组件安装下面贴出上述组件安装博客,方便有需要的读者。VMware安装Centos7并联网使用分布式处理框架Hadoop的安装与使用本例中,我们不再赘述其他组件的安装。在开始安装Spark前,我们使用安装Had原创 2021-04-16 13:56:09 · 1441 阅读 · 0 评论 -
MapReduce程序在Idea中的开发与调试
一、环境说明系统:Win10Hadoop版本:2.10.1JDK:1.8二、环境准备1、下载hadoop下载链接hadoop 2.10.1。下载后用解压到本地。2、下载winutils下载链接winutils,下载完成后解压到本地,然后复制hadoop对应版本或就近版本的文件夹中的hadoop.dll与winutils.exe文件到hadoop的bin目录中去。3、配置环境变量新建环境变量HADOOP_HOME,值为hadoop文件夹的位置添加变量到PATH4、最好需要重启原创 2021-04-12 14:30:44 · 1999 阅读 · 2 评论 -
分布式数据库HBase实践指南
一、HBase简介HBase官方网站:http://hbase.apache.org/HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文《Bigtable:一个结构化数据的分布式存储系统》。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是.原创 2020-07-01 14:16:37 · 2583 阅读 · 1 评论 -
你想了解的分布式文件系统HDFS,看这一篇就够了
1、分布式文件系统计算机集群结构分布式文件系统把文件分布存储到多个节点(计算机)上,成千上万的计算机节点构成计算机集群。分布式文件系统使用的计算机集群,其配置都是由普通硬件构成的,与用多个处理器和专用高级硬件的并行化处理装置相比,前者大大降低了硬件上的开销。分布式文件系统的结构分布式文件系统在物理结构上是由众多阶段及节点构成的,而这些节点中分为两类。一类是主节点(Master Node),又被称为名称节点(NameNode),另一类是从节点(Slave Node),又被称为数据节点(原创 2020-06-14 20:32:19 · 2766 阅读 · 0 评论 -
分布式处理框架Hadoop的安装与使用
Hadoop简介Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set原创 2020-06-13 15:32:10 · 1472 阅读 · 0 评论