大数据
pbyang5689
这个作者很懒,什么都没留下…
展开
-
图解互联网构架
单节点架构集群架构集群+分布式架构原创 2018-05-04 00:30:21 · 643 阅读 · 0 评论 -
Hadoop认知
1、hadoop背景介绍1.1、什么是Hadoop (1) HADOOP是apache旗下的一套开源软件平台 (2)HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理 (3) HADOOP的核心组件有: HDFS(分布式文件系统) YARN(运算资源调度系统) ...原创 2018-05-04 23:49:56 · 277 阅读 · 0 评论 -
离线数据分析流程之网站或APP点击流日志数据挖掘系统
一、案例需求描述 “Web点击流日志”包含着网站运营很重要的信息,通过日志分析,我们可以知道网站的访问量,哪个网页访问人数最多,哪个网页最有价值,广告转化率、访客的来源信息,访客的终端信息等。二、数据来源 本案例的数据主要由用户的点击行为记录 获取方式:在页面预埋一段js程序,为页面上想要监听的标签绑定事件,只要用户点击或移动到标签,即可触发ajax请求到后台se...原创 2018-05-05 00:39:49 · 967 阅读 · 0 评论 -
Hadoop集群搭建
一、集群简介 HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起(1)HDFS集群: 负责海量数据的存储,集群中的角色主要有NameNode / DataNode(2)YARN集群: 负责海量数据运算时的资源调度,集群中的角色主要有 ResourceManager /NodeManager(mapreduce是一个应...原创 2018-05-05 01:26:28 · 247 阅读 · 0 评论 -
mapreduce应用实例开发--wordcount
一、需求 从大量(比如T级别)文本文件中,统计出每一个单词出现的总次数。二、mapreduce实现思路 Map阶段: a) 从HDFS的源数据文件中逐行读取数据 b) 将每一行数据切分出单词 c) 为每一个单词构造一...原创 2018-05-05 22:47:24 · 149 阅读 · 0 评论 -
伪分布式和完全分布式hadoop集群搭建
Hadoop伪分布式集群搭建:https://blog.csdn.net/qq_26907251/article/details/78819156除以上链接内的步骤,还需环境变量:1、[root@izwz939y62jl5b2edpvoqsz bin]# echo $PATH/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/root/...转载 2018-06-03 14:16:52 · 287 阅读 · 0 评论