自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

我思,故我在!--My data life

生命在于运动,知识在于积累。

原创 CDH6.2环境中启用Kerberos

一、Kerberos概述:Kerberos是一个用于安全认证第三方协议,并不是Hadoop专用,你也可以将其用于其他系统,它采用了传统的共享密钥的方式,实现了在网络环境不一定保证安全的环境下,client和server之间的通信,适用于client/server模型,由MIT开发和实现。而使用Cloudera Manager可以较为轻松的实现界面化的Kerberos集成,Ker...

2019-06-27 11:40:48 2710

原创 CM启动 Oozie 服务器 Web 控制台

默认情况下Cloudera Manager是没有开启 Oozie web console的。在打开Oozie Web UI时会出现下面的错误:http://172.16.29.10:11000/oozie/Oozie web console is disabled.To enable Oozie web console install the Ext JS library....

2019-04-10 14:49:59 226

原创 通过CDH5 Hadoop读取和写入OSS数据

本页目录准备工作步骤一:增加 OSS 配置步骤二:配置 Impala 对 OSS 的支持 验证配置 参考文档CDH(Cloudera's Distribution, including Apache Hadoop)是众多 Hadoop 发行版本中的一种,最新版本 CDH6.0.1 中的 Hadoop3.0.0 版本已经支持 OSS。CDH5 中的 Hadoop2.6 版本不支持...

2019-03-21 11:43:58 778

原创 通过hue执行Oozie作业

Oozie是什么?Oozie是一种Java Web应用程序,它运行在Java servlet容器——即Tomcat——中,并使用数据库来存储以下内容:工作流定义 当前运行的工作流实例,包括实例的状态和变量Hue是什么?Hue是一个可快速开发和调试Hadoop生态系统各种应用的一个基于浏览器的图形化用户接口。它是基于Python Django Web框架编写的。Hue能干什么...

2019-03-21 11:26:55 1040

原创 修改mysql数据目录

mysql在线默认安装后的数据目录为/var/lib/mysql如果因为目录大小问题要修改数据存放目录,主要通过下面两个步骤就可以:1. 停止mysql服务2. 把/var/lib/mysql目录迁移到新目录,如/data01/mysqldata/mysql(注意新建目录权限)3. 修改my.cnf相关目录参数,如:[mysqld]bind-address = 0.0.0.0po...

2019-02-12 11:04:24 519 3

原创 在CDH5.14上离线安装Spark2.3

 在先前装的CDH5.14集群中,默认安装的spark是1.6.0版本。我们现在可以现有的集群中再装spark2.x版本,能和spark1.6版本并存。当前CDH支持的Spark2.X最新版本是Spark2.3.0,目前Apache Spark最近版本是2.3.1,即CDH的版本更新是慢半拍的,但基本上不影响使用。下面是在CDH中安装Spark2.3的步骤:这是官方给出安装和升级方法说...

2018-08-30 17:52:53 9786 1

原创 通过hive表整合查询hbase数据

大家知道,直接从hbase的读取数据是一个比较繁锁的过程,需要java代码或是spark 查询通过Hive整合HBase,可以通过hive表查询hbase数据,下面是测试过程--创建hbase表create "user","account","address","info","userid"--创建映射hbase表列族的hive外部表CREATE EXTERNAL TABLE ...

2018-08-14 11:47:28 2059

原创 hive锁表操作

当hive表被锁住后,进行drop insert操作时都出挂起等待,sqoop也无法导入数据,此时就需要先对hive表解锁再进行相关操作。步骤如下:查看是否被锁:show locks t_real_user_comein;列出相关查看锁表语句:SHOW LOCKS <TABLE_NAME>;SHOW LOCKS <TABLE_NAME> extended...

2018-07-27 11:08:59 2645

原创 使用beeline不能truncate table表

问题:使用beeline不能truncate table表和/etc/hive/conf.cloudera.hive/hive-site.xml修改参数在beeline里不起作用 在truncate table 表时报下面的错误:0: jdbc:hive2://172.16.29.10:10000/dw_test> truncate table customer_dim; ...

2018-07-23 10:26:58 1053

原创 NameNode Last Checkpoint报错误[Checkpoint Critical]

问题:HDP重启后,NameNode Last Checkpoint报错误[Checkpoint Critical] 问题解决:原理:HDP中的hdfs组件默认的dfs.namenode.checkpoint.period和dfs.namenode.checkpoint.txns分别是6个小时和1000000。只要达到这两个条件之一,secondarynamenode会执行c...

2018-07-19 17:39:11 1638

原创 使用PyCharm进行远程开发和调试

我们在使用python开发代码时,在linux上直接用vi编辑器开发操作起来会不是很方便,可以通过PyCharm的远程解释器加上文件同步功能,实现本地编辑代码->同步到服务器->通过远程debug来调试测试程序1.     远程服务器的同步配置远程服务器IP地址172.16.29.17,开启ssh服务,安装python版本2.6。我用一个在PyCharm里面的scripts项目来做演示...

2018-06-29 16:56:16 4573 2

原创 mysql参数调整参考(mysqltuner)

脚本获取# wget -c https://raw.githubusercontent.com/major/MySQLTuner-perl/master/mysqltuner.pl 脚本执行# chmod +x mysqltuner.pl# ./mysqltuner.pl 执行结果分析:[root@holly1 backup]# ./mysqltuner.pl  >>  MySQLTu...

2018-06-25 11:54:13 490

原创 MySQL 监控-innotop

innotop 编写者Balon Schwartz,《高性能MySQL》的作者之一。innotop的作用为实时地展示服务器正在发生的事情,监控innodb,监控多个MySQL实例,是一款MySQL运维和问题定位分析的工具。具体特性 : 事务列表可以显示Inoodb当前的全部事务 查询列表可以显示当前正在运行的查询 可以显示当前锁和锁等待的列表 以相对值显示服务器状态和变量的汇总信息 有多种模式可用...

2018-06-25 11:42:40 316

原创 CM启动 Oozie 服务器 Web 控制台

默认情况下Cloudera Manager是没有开启Oozie web console的。在打开Oozie Web UI时会出现下面的错误:http://172.16.29.10:11000/oozie/Oozie web console is disabled.To enable Oozie web consoleinstall the Ext JS library.Oozie web cons...

2018-04-23 08:58:58 1140

原创 Linux下安装 Python人脸识别 face_recognition 模块

系统环境:CentOS6.7Anaconda版本:Anaconda3-5.1.0-Linux-x86_64Python版本:Python-3.6.4 1. yum安装cmake、boostyum install cmake boost 2. yum安装gcc gcc-c++yum install gcc gcc-c++先利用yum安装系统现有版本,再升级至4.8...

2018-04-16 17:43:11 1852

原创 用Hue中的Oozie执行Impala Sheel脚本

在Oozie中不能像执行hive SQL那样直接执行impala SQL脚本。目前没有Impala操作,因此你必须使用调用impala-shell的shell操作。调用impala-shell的shell脚本中还必须包含设置PYTHON EGGS位置的环境变量。这是一个shell脚本(impala_overwrite.sh)示例: export PYTHON_EGG_CACHE=./myeggs ...

2018-03-01 15:14:58 3654 4

原创 数据预处理--数据降维

数据规约产生更小但保持数据完整性的新数据集。在规约后的数据集上进行数据分析和挖掘将更有效率。机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y,其中x是原始数据点的表达,目前最多使用向量表达形式。 y是数据点映射后的低维向量表达,通常y的维度小于x的维度(当然提高维度也是可以的)。f可能是显式的或隐式的、线性的

2017-07-20 17:10:48 1235

转载 协同过滤算法

在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法。本文将带你深入了解协同过滤的秘密。下面直接进入正题1 什么是协同过滤协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (Collaborative Filtering, 简称 CF),首先想一个简单的问题,如果你现在想看个电影,但你不知道具体看哪部,你会怎么做?大部分的人会问问周围的朋友,看看最近有什么好看的电

2017-07-11 17:33:19 543

原创 动态 SQL、EXECUTE IMMEDIATE、using、into、returning

很多时候我们需要在存储过程中使用动态的SQL,要怎么用好动态SQL呢,怎样执行效率最高呢。下面来介绍一下,如何使用动态SQL操作数据库。在存储过程中执行一个简单的SQL语句使用下面的方法即可。DECLAREBEGIN /* 使用该方法来创建一个新数据表,但这方法需要当前用户具有创建表的权限。 */ EXECUTE IMMEDIATE 'create table test (data1 n

2017-06-06 17:21:52 2007

转载 python数据类型详解

目录1、字符串2、布尔类型3、整数4、浮点数5、数字6、列表7、元组8、字典9、日期1、字符串1.1、如何在Python中使用字符串a、使用单引号(')用单引号括起来表示字符串,例如:str='this is string';print str;b、使用双引号(")双引号中的字符串与单引号中的字符串用法完全相同,例如:str="this is string";print str;c、使用三引号('

2017-05-06 16:43:00 325

原创 DG备库ORA-01196故障-归档日志丢失恢复一则

问题:由于机房停电,其中一DG备库无法open,启动时报错--启动数据库时报下面的错误SQL> alter database open;alter database open*第 1 行出现错误:ORA-10458: standby database requiresrecoveryORA-01196: 文件 1 由于介质恢复会话失败而不一致ORA-01110: 数据文件 1:'+DATA/htd

2017-03-25 21:57:51 1872

原创 异常:Project configuration is not up-to-date with pom.xml解决方案

一、异常信息:导入maven工程后,出现如下错误: Description    Resource    Path    Location    TypeProject configuration is not up-to-date with pom.xml. Run project configuration update    rdc        line 1    Maven Config

2017-03-07 09:56:55 23747 5

转载 异常解决:util.NativeCodeLoader: Unable to load native-hadoop library for your platform

刚装好Hadoop的时候,每次输入命令运行都会出现:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-Java classes where applicable提示hadoop不能加载本地库。以前官网会提供32位的安装包,但目前提供的下载包为64位的,在

2017-03-04 15:41:47 6391 1

原创 Mysql中模拟分析函数

[sql] view plain copySET @add_sal=0;    SELECT deptno, empno, ename, sal, @add_sal := @add_sal + sal AS add_sal    FROM emp   ORDER BY empno;    +--------+-------+--------+------+---------+  | deptno 

2017-02-14 17:36:31 926

转载 shinyapps安装部署

Shinyapps.io is a platform as a service (PaaS) for hosting Shiny web apps (applications). This guide will show you how to create a shinyapps.io account and deploy your first application to the cloud.B

2016-11-01 14:14:21 2647

原创 shiny-server 启动失败:start: Job failed to start

问题:启动shiny-server时失败,如下:[root@hadoop2 ~]# status shiny-servershiny-server stop/waiting[root@hadoop2 ~]# start shiny-server start: Job failed to start分析:查看shiny-server日志[root@hadoop2 ~]# tail -100f  /v

2016-09-14 22:41:15 2505

原创 Plot wordcloud2 in shiny

在使用shiny展示wordcloud2 的云词时,不能再使用传统的plotOutput和renderPlot函数了,应该使用对应的。wordcloud2Output和renderWordcloud2函数,如下面介绍的:DescriptionFunction for plotting wordcloud2 in shinyUsage123456wordcloud2Output(out

2016-08-26 23:30:41 2113

原创 Linux下安装ROracle包

1.下载oracle clienthttp://www.oracle.com/technetwork/topics/linuxx86-64soft-092277.htmloracle-instantclient11.2-basic-11.2.0.4.0-1.x86_64.rpmoracle-instantclient11.2-devel-11.2.0.4.0-1.x86_64.rpm 2.安装or

2016-08-16 09:56:00 2421

原创 readOGR加载shape文件时报错

加载shape文件时报错:> library(rgdal)> maps +                 layer = "ne_50m_admin_1_states_provinces_lakes", +                  encoding = "UTF-8",verbose=FALSE)Error in ogrInfo(dsn = dsn, layer = layer, en

2016-07-25 16:53:38 5077

转载 Hive CLI – Migrating to Beeline

Hive Beeline的用法转载:http://www.teckstory.com/hadoop-ecosystem/hive-new-cli-beeline-for-hive/Hive is the data warehouse software of Hadoop ecosystem. It provides a mechanism to project structure onto lar

2016-06-21 16:51:49 9343

原创 sqoop导入错误:Hive does not support the SQL type for column col_name

问题:把mysql导入到hive时,由于hive的类型不支持mysql的类型,出现导入错误,如下:[hdfs@hadoop0 ~]$ sqoop import --connect jdbc:mysql://10.1.32.34:3306/dicts --username sqoop --password sqoop  -m 1 --table ua --hive-import --hive-ove

2016-06-08 14:43:53 5707

原创 sqoop把mysql导入hive时报错:Could not load org.apache.hadoop.hive.conf.HiveConf.

环境:CDH5.7hadoop2.6.0hive1.1.0问题1:使用sqoop把mysql导入hive时报错# sqoop import --hive-import --connect jdbc:mysql://10.1.32.34:3306/dicts --username sqoop --password sqoop -m 1 --table nodist --create-hive-tab

2016-06-07 16:43:15 11986 1

原创 Hadoop Shell命令

FS ShellcatchgrpchmodchowncopyFromLocalcopyToLocalcpdudusexpungegetgetmergelslsrmkdirmovefromLocalmvputrmrmrsetrepstattailtesttexttouchzFS Shell调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。 所有的的FS shell命令使用

2016-06-07 11:19:26 4245

原创 sqoop导入mysql到HDFS时报错:java.lang.NoClassDefFoundError: org/json/JSONObject

问题1:sqoop import导入时报java.lang.ClassNotFoundException: org.json.JSONObject 错误[root@hadoop1 lib]# sqoop import --connect jdbc:mysql://10.1.32.8:3306/test --username sqoop --password sqoop --table t1 -m

2016-06-07 10:22:48 11410 2

转载 用以生产环境的Hadoop版本比较

一、背景介绍生产环境中,Hadoop的版本选择是一个公司架构之时,很重要的一个考虑因素。这篇文章根据就谈谈现在主流的hadoop版本的比较。如果有不同意见,或者指正,希望大家能交流。Apache Hadoop:Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据Google公司

2016-06-02 11:06:41 13737 1

原创 Cloudera Manager5及CDH5在线安装(cloudera-manager-installer.bin)

一、  准备工作 1.    需求条件网速好因为是线上安装,所以要求要有比较大的带宽,特别是并行安装台服务器时。 网络稳一旦网络中断,可能你花费了半天或则一天的时间,就有可能会浪费,然后重装。 内存大最少要求10G以上内存,特别NameNode节点分配的角色较多,占用内存会更多。 2.    安装环境 安装版本OS:CentOS 6.7CM:Cloudera Manager5.7CHD:Clo

2016-06-02 10:52:04 27518

原创 MySQL安装启动时报错一则

问题:--成功安装[root@hadoop0 rpm]# rpm -ivh MySQL-server-5.6.28-1.el6.x86_64.rpmwarning: MySQL-server-5.6.28-1.el6.x86_64.rpm: Header V3 DSA/SHA1 Signature, key ID 5072e1f5: NOKEYPreparing...

2016-05-16 14:41:41 7143

原创 Oracle 物化视图使用

一、物化视图用法:物化视图是一种特殊的物理表,“物化”(Materialized)视图是相对普通视图而言的。普通视图是虚拟表,应用的局限性大,任何对视图的查询,Oracle都实际上转换为视图SQL语句的查询。这样对整体查询性能的提高,并没有实质上的好处。1、物化视图的类型:ON DEMAND、ON COMMIT    二者的区别在于刷新方法的不同,ON DEMAND顾名思义,仅在该物化视图“需要”

2016-04-22 14:07:45 11274

原创 【12c新特性】12c中如何自动启动PDB Pluggable Database

PDB Pluggable Database是12c的一个重要的新特性, 但是对于CDB中的PDB,默认启动CDB时不会将所有的PDB带起来,这样我们就需要手动alter pluggable database ALL OPEN;[oracle@clouds ~]$ sqlplus "/as sysdba"SQL*Plus: Release 12.1.0.2.0 Production on 星期四

2016-03-31 09:31:02 4809

原创 MongoDB全文索引用法

全文索引的创建方法:db.ensureIndex({key:"text"})db.ensureIndex({key1:"text",key2:"text"})db.ensureIndex({"$**":"text",key2:"text"})mongodb全文索引查询的用法:db.article.find({$text:{$search:"coffee"}}) #查询包含coffee的内容的文

2016-03-29 18:02:18 4456 1

提示
确定要删除当前文章?
取消 删除