Fei-joe-CSDN博客

原创 databricks spark 集群连接AWS s3 数据

dbutils.fs.unmount("/mnt/s3data")access_key = "***********"secret_key = "*****************"encoded_secret_key = secret_key.replace("/", "%2F")aws_bucket_name = "feia**est"mount_name = "s3data"dbutils.fs.mount("s3a://%s:%s@%s" % (access_key, encoded.

2021-02-24 05:43:58 985

原创 2021-01-26

Csv to Excel$ pip install pyexcel pyexcel-xlsxyou can do it in one command line:from pyexcel.cookbook import merge_all_to_a_book# import pyexcel.ext.xlsx # no longer required if you use pyexcel >= 0.2.2 import globmerge_all_to_a_book(glob....

2021-01-26 19:01:07 282

原创 Oracle数据库忘记用户名和密码

由于要在Nifi上查询oracle 忘记了密码首先进入sqlplus：进入的方式有两种，一种是通过cmd命令台输入sqlplus，另外一种是直接在开始-》程序-》Oracle-》应用程序开发-》sqlplus。搜索“Oracle 11g默认用户名,密码”，可以找到很多相关的默认用户名和密码的信息，我就不贴过来了。然后用默认的用户名和密码逐一验证，看看有没有可以登录的，如果显示：“invalid username/password;logon denied” 就继续试其他用户。直到找...

2021-01-04 21:07:22 1099

原创 oracle 逗号拆分字段转多行

oracle 逗号分隔列转多行数据(动态)Oracle APEXdate table below：test SQL：SELECTActive_yn,REGEXP_SUBSTR(DAYS,'[^,]+',1,LEVEL)NAMEFROMJoeCONNECTBYLEVEL<=REGEXP_COUNT(DAYS,'[^,]+')ANDROWID=PRIORROWIDANDPRIORDBMS_RANDO...

2020-12-15 21:53:10 833

原创 hive 中文字段解决方法

使用Impala在kudu中创建含中文字段名的表Impala版本： 2.7.0+cdh5.10.2+0Kudu版本：1.4.0+cdh5.12.0+0Hue版本：3.9.0+cdh5.10.2+4153因业务需要，需要在kudu中创建含有中文字段的表。原来的方案是直接在Hue中Impala查询界面执行建表脚本，但是表中含有中文字段时，就会执行出错，建表脚本和出错信息如下：INSERT INTO `COLUMNS_V2` (`CD_ID`,`COMMENT`,`COLU...

2020-10-12 17:07:37 5360

原创 CentOS7忘记root密码重置密码

CentOS7忘记root密码修改（实践有效）。步骤1.启动系统，在GRUB2引导画面，按E键，编辑引导项2.删除linux16这一行最后的 rhgb和 quiet参数（在UEFI系统中是linuxefi），删除rhgb和quiet这两个参数是为了显示系统信息3.添加以下参数：rd.break enforcing=0在64位IBM Power Series是linux这一行尾；在x86-64 BIOS引导的系统中是linux16这一行尾；在UEFI引导的系统中是linuxefi这一...

2020-09-15 17:47:58 476 1

原创 centos7 部署superset 最完整包括调优连接clickhouse

# 依赖库安装yum upgrade python-setuptoolsyum install gcc gcc-c++ libffi-devel python-devel python-pip python-wheel openssl-devel libsasl2-devel openldap-develyum groupinstall "Development tools"yum ins...

2020-04-14 22:55:09 1019 1

原创 CentOS7安装Percona Server for MySQL 5.7（非yum安装）

CentOS7安装Percona Server for MySQL 5.7简介CentOS7 安装和配置安装Percona Server简介由于公司产品要支持MySQL，之前试过MySQL5.7社区版和MySQL Cluster 7.6在性能上都不理想，只好再试试Perona Server。以下记录一下安装的过程。CentOS7 安装和配置使用deadline使用xfs文件系统...

2019-12-11 16:55:57 1138

原创 MySQL 数据库迁移到PostgreSQL上（最新）

首先你需要有一个独立的Pyhton虚拟环境，我使用的是conda本工具只能在pyhton2.6,python2.7运行conda create -n mysql2pgsql python=2.7 -y进入虚拟环境 conda activatemysql2pgsqlgit clone git://github.com/philipsoutham/py-mysql2pgsql.gi...

2019-11-29 18:43:28 1338

原创解决yum本地安装mysql慢

https://www.cnblogs.com/damofeisha/p/10962856.html1.下载 4个rpm包mysql-community-client-5.7.26-1.el7.x86_64.rpmmysql-community-common-5.7.26-1.el7.x86_64.rpmmysql-community-libs-5.7.26-1.el7.x86_64....

2019-10-22 18:05:50 2580

原创通过superset 访问HBase (phoenix)

Superset 无法直接访问 HBase，但是可以通过 Phoenix 来与 HBase 做交互。目前SQLAlchemy并没有直接支持hbase的引擎，需要利用第三方包来完成配置。查询到相关包主要有pyPhoenix , phoenixdb,sqlalchemy-phoenix操作如下：source superset/bin/activate进入superset虚拟包后...

2019-05-07 14:43:52 2082

转载 hadoop hdfs数据扩容

1.增加节点当磁盘满了或节点不够处理速度慢了都需要对节点或者通过增加节点的方式进行磁盘扩容,这个时候就需要用到Hadoop扩容机制了通过如下命令可以查看各节点情况磁盘容量等> hadoop dfsadmin -report笔者现在有两个节点两还剩下大约 33GB的容量,我们先向HDFS中写入一些数据(笔者这里写入了9.1GB的数据) > hdfs d...

2019-02-24 13:02:27 993

原创 Hive 使用serde 处理分隔符

一Hive用正则表达式处理稍复杂数据的导入文件A正则解析器RegexSerDeregextserde用法使用该解析器来处理Apche Web日志数据的一个例子：这个例子好好读读处理web日志这个例子也说明了要想使用该解析器是需要导入相应的jar包的。关于output.format.string" = "%1s s %2ss %3s s %4ss %5s s %6ss %7s s %8s...

2018-11-28 13:04:42 1795

原创 hive创建表指定自定义多个字符

hive创建表指定分隔符，不支持多个字符作为分隔符,如果想使用多个字符作为分割符的话就需要实现InputFormat.主要重写next方法,代码如下package gaode_84;import java.io.IOException;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;...

2018-11-22 18:07:08 1154

原创 spark on hive

本文主要记录如何安装配置Hive on Spark，在执行以下步骤之前，请先确保已经安装Hadoop集群，Hive，MySQL，JDK，Scala，具体安装步骤不再赘述。背景Hive默认使用MapReduce作为执行引擎，即Hive on mr。实际上，Hive还可以使用Tez和Spark作为其执行引擎，分别为Hive on Tez和Hive on Spark。由于MapReduce中间计...

2018-10-30 12:07:49 1143

原创如何让你的web应用运行在80端口（使hue 在80端口中运行）

如何让你的web应用运行在80端口 thupdi.Fei 实际上，我们在开发的过程中总是会遇到服务器的默认端口是8080或8000，而HTTP协议的默认端口是80的问题，但是，在linux系统中，只有以root用户启动的程序才有资格占用80端口，而实际上，在一般的服务器维护中，我们很少用root用户去启动一个应用，如jetty、tomcat等。这样做实在不安全，那么，我们...

2018-10-13 15:50:45 961

转载 centos7下使用yum安装mysql

centos7下使用yum安装mysqlauthor：Thupdi_FeiCentOS7的yum源中默认好像是没有mysql的。为了解决这个问题，我们要先下载mysql的repo源。1. 下载mysql的repo源$ wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm2. 安装mysql-co...

2018-10-10 18:09:20 173

原创重新编译并安装Tez on hive（Tez 0.8.5,Hive 2.3.3)

author by Fei Joe (Thupdi 技术创新中心)一，maven3.3.9protoc的版本是2.5.0二，安装nodejsyum -y install gcc make gcc-c++ opensslwget http://nodejs.org/dist/v0.12.2/node-v0.12.2.tar.gz 解压后./configure 如果报错...

2018-09-17 14:37:55 1236

转载 centos6 安装git

centos6.5 安装git1.安装编译git时需要的包# yum install curl-devel expat-devel gettext-devel openssl-devel zlib-devel# yum install gcc perl-ExtUtils-MakeMaker2.删除已有的git# yum remove git3.下载git源码，我自己下...

2018-07-31 10:14:41 1002

原创 hive 计算时间差精确到小时 stamp差

You could use unix_timestamp for dates after 1970:SELECT (unix_timestamp('2013-01-01 10:10:10') - unix_timestamp('1970-01-01 00:00:00'))/60 Convert both dates to seconds from 1970-01-01 Subst...

2018-07-25 16:03:30 15004

转载 linux 安装python2.7（替换默认版本2.6）

linux自带的python是2.6版本的，用习惯了2.7.x,所以想升级python21.下载源码包,后面的下载链接直接在python官网找的，如果想安装更高的版本自行更换wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz2.解压压缩包tar xvf Python-2.7.10.tgz3.指定安装路径cd Python-...

2018-07-10 15:39:48 11551

转载 CentOS 下安装配置 mysql

CentOS 6.5 下安装配置 mysql可以去其官网上下载mysql数据库的rpm包，http://dev.mysql.com/downloads/mysql/5.6.html#downloads，大家可以根据自己的操作系统去下载对应的数据库文件。在这里我是通过yum来进行mysql数据库的安装的，通过这种方式进行安装，可以将跟mysql相关的一些服务、jar包都给我们安装好，所以省去了很多不...

2018-07-05 10:12:54 187

原创 CentOS 7下卸载旧版MySQL 重装新的mysql

先介绍卸载yum方式查看yum是否安装过mysqlyum list installed mysql*123如或显示了列表，说明系统中有MySQL yum卸载根据列表上的名字yum remove mysql-community-client mysql-community-common mysql-community-libs mysql-community-libs-compat mysql...

2018-05-25 11:16:51 2408

原创如何使用Maxwell和flume,kafka 把MySQL数据实时同步到HDFs？

Hadoop实战：使用Maxwell把MySQL数据实时同步到HDFsMaxwell介绍Maxwell是一个守护程序，一个应用程序，能够读取MySQL Binlogs然后解析输出为json。支持数据输出到Kafka中，支持表和库过滤。→ Reference：http://maxwells-daemon.io→ Download: https://github.com/zendesk/maxwell...

2018-05-07 14:34:53 2223 1

原创 RedHat 7 配置本地yum源

RedHat 7 配置本地yum源[日期：2016-06-10] [字体：大中小]本文配置本地yum源是把RedHat 7的系统盘内容复制到服务器硬盘的目录/RH7ISO中，然后配置yum指向该目录。首先挂载光驱到/mnt目录：mount /dev/cdrom /mnt复制系统盘的内容到/RH7ISO目录中：cp -R /mnt/* RH7ISO进入yum配置目录 : cd /etc/yum...

2018-04-12 17:35:28 7812

转载 kafka与flume 的应用（实战）

版本号：RedHat6.5 JDK1.8 flume-1.6.0 kafka_2.11-0.8.2.11.flume安装RedHat6.5安装单机flume1.6：http://blog.leanote.com/post/2630794313@qq.com/26781d33b4352.kafka安装RedHat6.5安装kafka集群： http://blog.leanote.co...

2018-03-22 15:36:49 1762

原创 linux centos 安装python3.5 （不卸载老版本）

im Fei thupdi一、下载Python3.5的源码包并编译wget https://www.python.org/ftp/python/3.5.0/Python-3.5.0.tgz二、解压后进入目录tar xf Python-3.5.0.tgzcd Python-3.5.0三、在编译源码之前先在/usr/local建一个文件夹python

2018-01-23 16:09:47 1519

原创 linux 安装mysql 5.7

本文是最新版linux系统下安装mysql 5.7.17的全过程及注意事项，1、cd /usr/local/ ##进入local目录2、cp /home/soft/MySQL-5.7.15-Linux-glibc2.5-x86_64.tar.gz /usr/local/##拷贝mysql压缩到local目录3、cd /usr/local/ ##进入local目录4、tar -xzvf mysql-...

2018-01-23 15:05:48 213

原创修改docker镜像默认目录

在默认情况下，Docker镜像和容器的默认存放位置为:/var/lib/docker一般根下分区我们不会给太大。镜像和容器越存越多一般我们有一种最简单解决方法:修改镜像和容器的存放路径在Docker服务配置文件/etc/sysconfig/docker中修改镜像和容器存放路径的参数，在配置文件中加入：other_args="--graph=/data/docker"。具体执行步骤如下：停止

2017-12-14 14:45:25 2506

原创 nodemanager无法启动问题

在hadoop-2.7.4中，在主节点执行 ./start-yarn.sh后发现部分机器nodemanager没有启动成功查看日志发现：INFO org.apache.hadoop.service.AbstractService: Service NodeManager failed in stateSTARTED; cause: org.apache.hadoop.yarn.e

2017-11-23 12:03:24 17095 1

转载安装编译hue

hue安装需要从github上面下载源码，进行编译安装。github上面给出的安装教程很简单然而实际上在安装的过程中遇到了无数个坑，下面开始真正意义上的从零开始安装hue.安装环境：centOS6.5 64位然后没有Orz(1)jdk的安装(已安装略过)在官网上http://www.oracle.com/technetwork/java/javas

2017-09-08 15:03:19 638

转载 Oozie4.3 安装部署

from：乔飞更改為：https://blog.csdn.net/lucylove3943/article/details/80673962编译：使用的环境是：Hadoop2.5.2、Spark1.4.0、Hive0.13.1、Sqoop1.4.4编译Oozie的命令：./mkdistro.sh -Phadoop-2 -Dhadoop.auth.version=2.6.0 -Ddi...

2017-08-21 14:18:21 518

原创 Hadoop 和 spark 读取多个文件通配符规则（正则表达式）joe

最近在公司需要计算手机信令数据但是每次spark读取文件的时候都是把当天24小时从头到尾读取一遍非常耗时，在一步操作中处理批量文件，这个要求很常见。举例来说，处理日志的MapReduce作业可能会分析一个月的文件，这些文件被包含在大量目录中。Hadoop有一个通配的操作，可以方便地使用通配符在一个表达式中核对多个文件，不需要列举每个文件和目录来指定输入如下图所示：点击打开链接

2017-07-09 14:22:46 2980

原创 crontab hadoop任务没有执行

最近一段时间公司要把sqlserver里的100G数据导入到HDFS中，但是数据库在同事的服务器中，为了不影响同事工作，决定定时在晚上自动执行，但是crontab并没有自动执行，并且执行了下发现脚本的逻辑是没有问题的，而且直接执行是没有问题的，后来又去/etc/crontab文件里去看了下，发现crontab中的环境变量不一样解决办法如下：1：在本地输入 echo $PATH2:将输

2017-06-26 10:38:19 1321

原创 crontab定时hadoop任务没有执行

最近公司要从sqlserver数据库数据大约100G导入到hdfs中，由于数据库在同事的服务器中，为了不影响同事工作，计划晚上自动执行。服务器的定时脚本的时候发现了定时脚本并没有被执行，但是定时比如创建文件夹却可以执行，并且执行了下发现脚本的逻辑是没有问题的，而且直接执行是没有问题的，又去/etc/crontab文件里去看了下原来是crontab中的环境变量不一样，需要在定时脚本前面加上环境

2017-06-26 10:10:48 2836

原创 Linux（centos）不能使用FTP 命令 -bash: ftp: command not found

Linux下登陆Linux中使用 FTP 命令时出现“-bash: ftp: command not found”Linux中测试搭建 FTP 服务器，刚安装完 vsftpd 测试登录时就提示“-bash: ftp: command not found”,说明需要安装FTP客户端。安装此ftp-0.17-51.1.el6.x86_64.rpm包即可访问。文件链接：http://p

2017-06-20 11:13:14 5776

原创解决为什么提交spark job 在web上没有进度

在提交jar包上执行spark-submit 后在本地执行成功但是在8088页面上无记录解决办法：在程序上去掉程序中的setMaster（"local"）这条语句并不是在集群中提交jobFei joe点击打开链接val conf = new SparkConf().setAppName("Map").setMaster("local")

2017-06-14 11:00:39 1925

原创关于mysql 数据库没有 mysql库和重启mysql后密码无法登陆 Access denied for user ''@'localhost' to database 'mysql'

提示：ERROR 1044 (42000): Access denied for user ''@'localhost' to database 'mysql'。网上找了一个比较流行的方法（见方法一），搞定了。今天又用这个试了试，却搞不定，在网上找了半天，终于发现是因为mysql数据库的user表里，存在用户名为空的账户即匿名账户，导致登录的时候是虽然用的是root，但实际是匿名登录的，通过错误提

2017-06-02 10:42:39 731

原创 How to solve：util.NativeCodeLoader: Unable to load native-hadoop library for your platform ??

How to solve util.NativeCodeLoader: Unable to load native-hadoop library for your platform ??this problem is so easy .Now Add below lines to hadoop-env.sh, it will fixexport HADOOP_HOM

2017-05-24 11:22:33 315

原创 mapreduce 输出乱码

Hadoop处理GBK文本时,发现输出出现了乱码,原来HADOOP在涉及编码时都是写死的UTF-8，如果文件编码格式是其它类型（如GBK)，则会出现乱码。此时只需在mapper或reducer程序中读取Text时，使用transformTextToUTF8(text, "GBK");进行一下转码，以确保都是以UTF-8的编码方式在运行。 String line=new String...

2017-04-07 14:58:43 4872 1

空空如也

空空如也