Hadoop
文章平均质量分 84
xipenfei
这个作者很懒,什么都没留下…
展开
-
大数据离线--数据管理简介
本次介绍数据管理的知识,分为三个部分:数据源数据管理数据仓库1. 数据源典型的数据分析系统, 要分析的数据种类其实是比较丰富的。 依据来源可 大体分为以下几个部分: 业务系统业务系统产生的数据是不可忽视的,比如电商网站,大量的订单数据看似杂乱章,实则蕴含潜在的商业价值,可以从中分析进而进行商业推广,产品推荐等。 另一角度来看,业务系统数据获取成本低、方式容...原创 2018-09-15 21:38:26 · 2970 阅读 · 0 评论 -
大数据离线-HDFS(上)入门操作
本次介绍HDFS,分为上,中,下,三篇上篇入HDFS门介绍,常用操作中篇为HDFS的读写原理介绍下篇为HDFS的测试Demo,常用API1. HDFS的基本概念HDFS的介绍 HDFS 是 Hadoop Distribute File System 的简称, 意为: Hadoop 分布式文件系统。 是 Hadoop 核心组件之一,作为最底层的分布式存储服务而存在。 分...原创 2018-09-12 14:41:43 · 498 阅读 · 0 评论 -
大数据离线---网站日志流量分析系统(1)---简介及框架
本次介绍网站日志流量分析系统,首先是简介和架构。后面会对架构中需要的每个模块的进行逐个介绍。本篇主要分为两个部分网站日志流量分析系统简介整体技术流程和架构1. 网站日志流量分析系统简介1.1点击流数据模型点击流的概念 点击流( Click Stream)是指用户在网站上持续访问的轨迹。 这个概念更注重用户浏览网站的整个流程。 用户对网站的每次访问包含了一系列的点击动作...原创 2018-09-17 11:22:05 · 13683 阅读 · 2 评论 -
大数据离线-Hadoop入门(上)
本博客现阶段主要针对大数据的学习会逐一推出相关的学习文档,从简介,原理,入门测试,小的案例练习包括。会每天抽出时间更新,感兴趣的童鞋,欢迎关注订阅,多多交流。 本次主要介绍大数据离线阶段的Hadoop入门,分为上下两篇。上篇的内容为Hadoop简介,历史,特性,应用四个模块。下篇的内容为hadoop的集群搭建,集群启动,入门初试三部分。Hadoop介绍一般我们讲的Hadoo...原创 2018-09-10 14:34:28 · 798 阅读 · 0 评论 -
大数据离线-Hadoop入门(下)
本博客现阶段主要针对大数据的学习会逐一推出相关的学习文档,从简介,原理,入门测试,小的案例练习包括。会每天抽出时间更新,感兴趣的童鞋,欢迎关注订阅,多多交流。 本次主要介绍大数据离线阶段的Hadoop入门,分为上下两篇。上篇的内容为Hadoop简介,历史,特性,应用四个模块。下篇的内容为hadoop的集群搭建,集群启动,入门初试三部分。1.Hadoop集群搭建发行版...原创 2018-09-10 23:01:21 · 858 阅读 · 0 评论 -
MapReduce报错Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio
在使用MapReduce的小测试的时候,Driver类启动,或报下面的错误log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory).log4j:WARN Please initialize the log4j system properl...原创 2018-09-13 12:29:40 · 12092 阅读 · 36 评论 -
大数据离线-MapReduce(上)--初识MapReduce
本次主要介绍MapReduce,分为上篇,下篇两个篇章上篇介绍MapReduce计算模型,MapReduce编码规范及测试,程序运行模式。下篇介绍MapReduce序列化,MaoReduce排序初步,Mapreduce 的分区。1. MapReduce计算模型MapReduce是: 将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在Hado...原创 2018-09-13 21:01:53 · 435 阅读 · 1 评论 -
大数据离线-MapReduce(下)-序列化,分区,案例
本次主要介绍MapReduce,分为上篇,下篇两个篇章上篇介绍MapReduce计算模型,MapReduce编码规范及测试,程序运行模式。下篇介绍MapReduce序列化,MaoReduce排序初步,Mapreduce 的分区。1. MapReduce的输入和输出2. MapReduce的序列化需求:对于记录用户手机信息的文件,得出统计每一个用户(手机号)所...原创 2018-09-14 20:58:07 · 1216 阅读 · 0 评论