大数据
象在舞
谁说大象不能跳舞!
展开
-
六十七、搭建Cloudera Manager环境管理大数据集群
本文主要介绍如何搭建Cloudera Manager环境来管理大数据集群。这里注重的是搭建的过程,所以小编没用公司的服务器,而是在自己电脑上建了三台虚拟机(使用的是CentOS6.5),用作搭建Cloudera Manager环境。废话不多说,直接开始~一、环境准备(在所有机器上操作)查看系统空间的使用情况等配置ip、主机名、主机映射等(重启生效!!)禁用ipv6(重启生效!!)# ...原创 2018-03-12 21:37:04 · 8296 阅读 · 2 评论 -
Hadoop环境下安装zkdash
zkdash是web端管理zookeeper的工具,使用起来非常方便,这篇博客主要介绍如何在Hadoop环境下安装zkdash。一、安装Python2.7.x(x>6) 这里可以参考我的另外一篇博客《Linux下安装Python》。值得注意的是,Python3.6.3自带setuptools和pip,但是Python2.7.x没有自带的setuptools和pip,需要...原创 2018-03-11 21:28:38 · 456 阅读 · 0 评论 -
Linux下安装MySQL
这篇文章主要讲解Linux下如何安装MySQL。一、首先卸载自带的MySQL数据库查询:# rpm -qa | grep mysql卸载:# rpm -e mysql-libs-5.1.71-1.el6.x86_64 --nodeps这里我已经卸载了。二、通过yum安装MySQL# yum install -y mysql-server mysql mysql-devel三、启动MySQL...原创 2018-03-11 20:56:18 · 351 阅读 · 0 评论 -
完全分布式下安装Zookeeper
本文主要讲述如何在完全分布式的环境下搭建Zookeeper,至于如何搭建Hadoop完全分布式环境,大家可以参考我的另外一篇文章《Hadoop完全分布式环境的搭建》一、上传解压Zookeeper二、配置conf下的zoo.cfg文件三、创建zkData目录,在zkData目录目录下创建myid文件,编辑myid,内同就是此台server的id,就是zoo.cfg中指定的server.1...原创 2018-03-11 20:42:16 · 371 阅读 · 0 评论 -
Hadoop完全分布式的搭建
搭建完全分布式的环境是研究大数据技术必不可少的要求。这里,小编将一步步的教大家搭建如何进行Hadoop完全分布式的环境搭建,以三台机器为例。废话不多说直接进入配置模式~一、系统和软件CentOS6.5,hadoop2.5.0,jdk1.8.0_161二、基本环境准备检查主机名:$ cat /etc/sysconfig/network检查IP和DNS:$ cat/etc/sysconfi...原创 2018-03-11 20:21:31 · 421 阅读 · 0 评论 -
大数据协作框架简介
“大数据协作框架”其实就是一个统称,实际上就是Hadoop 2.x生态系统中几个辅助hadoop 2.x框架。在此,主要是以下四个框架:1)数据转换工具Sqoop2)文件收集库框架Flume3)任务调度框架Oozie4)大数据Web工具Hue分析数据的来源?分析数据主要主要有以下两个来源:1)RDBMS:数据大量存储在RDBMS(Oracle、MySQL、DB2原创 2017-09-01 21:18:28 · 1646 阅读 · 0 评论 -
数据仓库之ETL
注:参考xiaohai798的专栏、http://superlxw1234.iteye.com/blog/1666960ETL是什么ETL是Extract Transform Load三个英文单词的缩写 中文意思就是抽取、转换、加载。说到ETL就必须提到数据仓库。先说下背景知识:信息是现代企业的重要资源,是企业运用科学管理、决策分析的基础。目前,大多数企原创 2017-08-29 19:26:07 · 989 阅读 · 0 评论 -
分类和聚类的区别以及各自的常见算法
1、分类和聚类的区别: Classification (分类),对于一个classifier,通常需要你告诉它“这个东西被分为某某类”这样一些例子,理想情况下,一个 classifier 会从它得到的训练集中进行“学习”,从而具备对未知数据进行分类的能力,这种提供训练数据的过程通常叫做supervised learning (监督学习), Cluster转载 2017-09-24 19:18:40 · 2366 阅读 · 0 评论 -
数据仓库与数据库的区别
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。(1) 面向主题:指数据仓库中的数据是按照一定的主题域进行组织。(2)集成:指对原有分散的数据库数据经过系统加工, 整理得到的消除源数据中的不原创 2017-09-15 19:59:19 · 838 阅读 · 0 评论 -
网站数据分析指标体系
标签: 郑来轶 数据分析 分析报告 数据报表 网站分析 分类: 03.数据分析【编者注】网站流量统计,是指对网站访问的相关指标进行统计。本文整理自网友分享的一份 Word 文档,主要介绍了网站分析的 KPI 指标、数据分析方法、网站分析工具介绍和对比等。一、总论1. 概念 网站流量统计,是指对网站访问的相关指标进行统计。网站访问分析(有时也使用“网站流量分析转载 2017-08-27 12:26:17 · 9192 阅读 · 0 评论 -
Apache与CDH的比较
(1)CDH对Hadoop版本的划分非常清晰,只有两个系列的版本,分别是CDH3和CDH4,分别对应Hadoop 1.0和Hadoop 2.0。相比而言,Apache版本则混乱得多。 (2) CDH比Apache在兼容性,安全性,稳定性上有增强。 (3) CDH3版本是基于Apache Hadoop 0.20.2改进的,并融入了最新的patch原创 2017-08-19 08:25:39 · 4787 阅读 · 0 评论 -
大数据集群清理缓存
大数据集群在建立好之后,因为某些任务(例如处理SQL语句等)可能会出现各组件失联、CPU巨高或ssh登录不了的问题。我们可以通过清理缓存来解决内存的问题。大数据集群因为每天都会处理大量的数据,所以会有大量的缓存,如果 不及时的清理就会出现节点失联等上述问题。 我们可以使用命令手动进行缓存的清理,命令如下:1、To free pagecache, useecho...原创 2018-09-27 21:50:45 · 1314 阅读 · 0 评论