大数据
柳暗花明_攻城师
与广大程序员、技术人员、专家交流,致力于专业能力有效快速提升。
展开
-
Hadoop学习笔记—20.网站日志分析项目案
网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html网站日志分析项目案例(二)数据清洗:当前页面网站日志分析项目案例(三)统计分析:http://www.cnblogs.com/edisonchou/p/4464349.html一、数据情况分析1.1 数据情况回顾 该论坛数据有两部分: ...转载 2019-03-07 11:21:10 · 369 阅读 · 0 评论 -
windows环境安装hbase步骤
HBase简介Apache HBase 是一个基于 Hadoop 的、适用于大数据存储的、具有高可扩展性的分布式数据库。HBase 适用于随机的、实时的大数据的 I/O 访问,它的设计目标是在商品硬件的集群上托管非常大的表(数十亿行乘以百万列)。同时,HBase 作为一款非关系型数据库,起源于谷歌的 Bigtable 。我们知道,HDFS 是一个分布式文件系统,非常适合存储大型文件。但...转载 2019-06-02 00:07:19 · 1810 阅读 · 1 评论 -
windows环境安装hbase步骤
1 下载hbase,需要注意对应的hadopp的版本,参照 http://hbase.apache.org/book.html#configuration查看适配性。如本初安装最高版本hbase-2.1.0,对应hadoop版本为2.7.7。2 解压hbase到本地硬盘,如E:\hbase-2.1.03 修改配置文件E:\hbase-2.1.0\conf下hbase-env....转载 2019-06-01 23:45:38 · 1439 阅读 · 1 评论 -
windows 下安装 hadoop2.8.0
原文地址 :https://my.oschina.net/chendongj/blog/1629808前置条件:已安装jdk8.0或以上版本下载:hadoop-2.8.0.tar.gz下载路径:http://archive.apache.org/dist/hadoop/common/hadoop-2.8.0/1.解压到硬盘目录:2.配置环境变量配置到环境变量HAD...转载 2019-06-01 13:22:50 · 5097 阅读 · 0 评论 -
实时流计算、Spark Streaming、Kafka、Redis、Exactly-once、实时去重
本文想记录和表达的东西挺多的,一时想不到什么好的标题,所以就用上面的关键字作为标题了。在实时流式计算中,最重要的是在任何情况下,消息不重复、不丢失,即Exactly-once。本文以Kafka–>Spark Streaming–>Redis为例,一方面说明一下如何做到Exactly-once,另一方面说明一下我是如何计算实时去重指标的。1. 关于数据源数据源是文本格式的...转载 2019-03-08 12:31:46 · 150 阅读 · 0 评论 -
Flume 基础知识
阅读目录(Content)一、Flume简介 二、Flume特点 三、Flume的一些核心概念 3.1、Agent结构 3.2、source 3.3、Channel 3.4、Sink 四、Flume拦截器、数据流以及可靠性 4.1、Flume拦截器 4.2、Flume数据流 4.3、Flume可靠性 五、Flume使用场景 5.1、多个agent顺...转载 2019-03-11 17:52:04 · 335 阅读 · 0 评论 -
Spark函数实战总结
一、Spark简介 1、什么是Spark 发源于AMPLab实验室的分布式内存计算平台,它克服了MapReduce在迭代式计算和交互式计算方面的不足。 相比于MapReduce,Spark能充分利用内存资源提高计算效率。 2、Spark计算框架 Driver程序启动很多workers,然后workers在(分布式)文件系统中读取数据后转化为RDD(弹性分布...转载 2019-03-11 15:59:44 · 196 阅读 · 0 评论 -
sparkJavaApi逐个详解
说明:掌握spark的一个关键,就是要深刻理解掌握RDD各个函数的使用场景,这样我们在写业务逻辑的时候就知道在什么时候用什么样的函数去实现,得心应手,本文将逐步收集整理各种函数原理及示例代码,持续更新,方便大家学习掌握。函数列表:1、join的使用2、cogroup的使用3、GroupByKey的使用4、map的使用5、flatmap的使用6、mapPartitions的使...转载 2019-03-11 11:57:44 · 824 阅读 · 0 评论 -
Sqoop学习之路 (一)
讨论QQ:1586558083目录一、概述 二、工作机制 三、安装 1、前提概述 2、软件下载 3、安装步骤 四、Sqoop的基本命令 基本操作 示例 五、Sqoop的数据导入 1、从RDBMS导入到HDFS中 2、把MySQL数据库中的表数据导入到Hive中 3、把MySQL数据库中的表数据导入到hbase 正文回到顶部...转载 2019-03-07 12:04:42 · 104 阅读 · 0 评论 -
Hadoop学习笔记—20.网站日志分析项目案例(三)统计分析
网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p/4458219.html网站日志分析项目案例(三)统计分析:当前页面一、借助Hive进行统计1.1 准备工作:建立分区表 为了能够...转载 2019-03-07 11:50:48 · 444 阅读 · 0 评论 -
Hadoop学习笔记—20.网站日志分析项目案例(一)项目介绍 ~ 好文章
网站日志分析项目案例(一)项目介绍:当前页面网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p/4458219.html网站日志分析项目案例(三)统计分析:http://www.cnblogs.com/edisonchou/p/4464349.html一、项目背景与数据情况1.1 项目来源 本次要实践的数据日志...转载 2019-03-07 11:37:13 · 306 阅读 · 0 评论 -
Windows10 安装HIVE
原文地址:https://blog.csdn.net/hawkzy/article/details/86472449一 准备工作 安装Hadoop 3.1.1 安装JDK 1.8或更高版本 Hadoop已经能正常启动,启动过程中无exception或error信息 下载hive 3.1.0:http://mirror.bit.edu.cn/apache/...转载 2019-06-02 22:59:43 · 7657 阅读 · 1 评论