Chic_数据媛-CSDN博客

原创解析Spark Executor内幕,详解CoarseGrainedExecutorBackend

Spark Executor工作原理ExecutorBackend注册Executor实例化Executor具体是如何工作的？ CoarseGrainedExecutorBackend，粗粒度的ExecutorBackend进程。Worker为什么要启动另外一个进程？Worker本身是管理当前机器上的资源，变动

2017-08-17 11:01:10 12365 3

原创 center os 7配置yum源（阿里+国内）

配置阿里云的yum源1）下载repo文件 wget http://mirrors.aliyun.com/repo/Centos-7.repo2）备份并替换系统的repo文件 cp Centos-7.repo /etc/yum.repos.d/ cd /etc/yum.repos.d/ mv CentOS-Base.repo CentOS-Base.repo.ba

2017-08-08 10:52:50 7485

转载 Windows上本地安装MySQL数据库

环境：windwos 10（1511） 64bit、mysql 5.7.14时间：2016年9月5日一、下载mysql1. 在浏览器里打开mysql的官网http://www.mysql.com/2. 进入页面顶部的"Downloads"3. 打开页面底部的“Community(GPL) Downloads”

2017-05-16 14:57:19 42232 7

转载 eclipse集成Scala,运行Spark项目

为了学习Spark，在window上使用eclipse创建包含Scala的maven工程，并打包至于服务器运行。1.1 hadoop安装安装hadoop2.6.0，参考博客1.2 spark下载下载spark-1.6.0-bin-hadoop2.6.tgz，在官网下载，在 choose a download type中建议选择 select apache m

2017-05-12 15:23:14 7007

原创用户行为路径分析（一）

用户行为路径（一）数据清洗采用hive编写hql代码实现:代码如下：USE src_dat_zuma;DROP TABLE 20170329_log_tycx;CREATE TABLE IF NOT EXISTS 20170329_log_tycx (SERVER_DT string,SP_CD string,

2017-05-12 11:39:38 6362 1

转载 Caused by: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMe

[root@slave Hadoop]# cd Hive-1.2.1/bin/[root@slave bin]# ./hive17/02/20 19:33:00 WARN conf.HiveConf: HiveConf of name hive.metastore.local does not existLogging initialized using configuration

2017-05-12 11:12:26 9816

转载 (error) MISCONF Redis is configured to save RDB snapshots, but is currently not able to persist on d

今天运行Redis时发生错误，错误信息如下：(error) MISCONF Redis is configured to save RDB snapshots, but is currently not able to persist on disk. Commands that may modify the data set are disabled. Please check Redis

2017-04-12 11:33:35 277

转载 Name node is in safe mode

将本地文件拷贝到hdfs上去，结果上错误：Name node is in safe mode这是因为在分布式文件系统启动的时候，开始的时候会有安全模式，当分布式文件系统处于安全模式的情况下，文件系统中的内容不允许修改也不允许删除，直到安全模式结束。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性，同时根据策略必要的复制或者删除部分数据块。运行期通过命令也可以进入安全模式

2017-01-23 13:17:32 550

原创 hadoop1.x和hadoop2.x的比较

Hadoop1.x与Hadoop2的区别1、变更介绍Hadoop2相比较于Hadoop1.x来说，HDFS的架构与MapReduce的都有较大的变化，且速度上和可用性上都有了很大的提高，Hadoop2中有两个重要的变更：l HDFS的NameNodes可以以集群的方式布署，增强了NameNodes的水平扩展能力和可用性；l MapReduce将JobTracker中的资源管

2016-11-18 16:35:37 399

原创 HDFS的安全模式

什么是安全模式安全模式是HDFS所处的一种特殊状态，在这种状态下，文件系统只接受读数据请求，而不接受删除、修改等变更请求。在NameNode主节点启动时，HDFS首先进入安全模式，DataNode在启动的时候会向namenode汇报可用的block等状态，当整个系统达到安全标准时，HDFS自动离开安全模式。如果HDFS出于安全模式下，则文件block不能进行任何的副本复制操作，因

2016-11-09 19:22:59 727

原创大数据协作框架之Oozie篇

Oozie基础介绍：一个基于工作流引擎的开源框架，是由Cloudera公司贡献给Apache的，它能够提供对HadoopMapReduce和Pig Jobs的任务调度与协调。Oozie需要部署到JavaServlet容器中运行。 Oozie工作流定义，同JBossjBPM提供的jPDL一样，也提供了类似的流程定义语言hPDL，通过XML文件格式来实现

2016-11-07 13:12:30 974

原创大数据协作框架之flume详解

数据源 1、关系型数据库中的业务数据（sqoop） 2、日志文件（业务系统的操作数据）（flume）数据收集的类型 1、hadoop 执行命令put上传（exec） bin/hdfs dfs -put /path/.... 2、hive加载本地数据 load data local inpath /path/...

2016-11-06 18:49:44 1599

原创 hive中 sqoop详解

sqoop RDBMS ----> HDFS HIVE HBASE HDFS HIVE HBASE ----> RDBMS hadoop（hdfs）是RDMS（关系型数据库）之间的桥梁，主要的作用就是在hdfs和rdms之间导入导出数据 flume：文件库收集框架（主要收集业务系统的操作日志） oozie：任务调度框架（主要用来执行有规律的

2016-11-06 16:36:30 2259

原创 hive的基本操作（重点）

hive的基本表操作1.创建管理表create table [if not exists] db01.student(id int,name string,age int,...)row format delimited fields terminated by '\t';2.加载数据load data [local] inpath 'filepath'

2016-11-06 15:47:19 527

原创 hive 安装详解

安装 hive1、下载2、jdk和hadoop（伪分布式）可以运行3、解压 tar zxf /opt/softwares/hive-0.13.1-cdh5.3.6.tar.gz -C ./4、配置复制配置 cp hive-env.sh.template hive-env.sh cp hive-default.xml.temp

2016-11-06 15:45:04 362

原创 hive基础概述

hive：数据仓库，Hive是一个基于Hadoop的数据仓库工具，将结构化的数据文件映射成一张表，并提供类SQL的查询功能。HQL（hive query language）hive 用HQL作为查询语句，存储在HDFS上，使用mapreduce作为计算工具，支持UDF 支持自定义存储格式适合做大量的离线数据处理hive的用户接口：

2016-11-06 15:10:08 348

chic_data的博客