Axel_Fr-CSDN博客

原创 Hive 3.1.2 国内镜像下载地址

快速，快速Index of /apache/hive/hive-3.1.2

2022-01-03 22:33:27 6331 1

首先 map task 写一个继承Mapper 的类；中间可能写一个分文件的一个partition 的类；（注意设置 reducetask 的数量）中间还有可能写一个 combiner. 也是继承Reducer. 可用来优化最后 reduce task 写一个继承Reducer 的类；1. 简单的Wordcount; 使用普通的 hadoop 序列化数据类型就可以，Text, LongWritable;2.实现排序，一般就是一行多个字段， order by 其中一个或者多个；.

2021-12-08 00:08:38 1702 1

原创 IDEA 执行Mapreduce 程序

以下提到三种方式方式1：首先在windows 的IDEA写好代码，代码中不指出在哪运行，就是本地运行。即在windows 运行环境。此时需要满足以下条件：-- 下载hadoop 安装包，解压。-- 百度 “hadoop winutils”. 找到这个这个资源。选择对应hadoop版本号。然后应该会是一个 bin 文件夹，其中就包含了winutils.exe。将这个文件夹复制到先前解压的hadoop 安装包中，替换掉安装包中的 bin 文件夹。-- 最后在这个bin文件夹中找到 had

2021-12-07 23:46:34 2877

原创 spark 第一个程序，求PI 值

spark-Example-PI1.找到class(一般在spark的安装包里)find / -name spark找到jar 包2.编写sh执行脚本脚本内submit的命令格式要求严格，-换行需使用 “斜杠”，斜杠后无空格- jars 这一项为，手动添加的外部jars 包，需只占用一行，多个jar包用逗号隔开vim submit.sh (注意权限，需要是x, 可执行文件)#!/bin/bashCDH_BIN='/opt/cloudera.

2021-08-31 18:09:49 507

原创 JAVA 树状结构数据_根到每个最底层叶子的路径

数据结构：public class node { private String text; private List<node>childList; public String getText() { return text; } public void setText(String text) { this.text = text; } public List<node> get

2021-08-10 17:54:45 488

原创 Hive 分区， alter添加分区,字段顺序无所谓

测试，不按照创建语句的分区字段顺序，添加分区。效果一样

2021-07-30 11:41:39 581

原创 sourcetree 使用

1. 点击“获取”，查看是否有变化2.暂存目前要提交的文件3. 填写msg ,点击提交， #提交到我的远端分支3.2 如果有修改其他文件，暂时不用推送的，d暂存起来，在点击贮藏。等第五步结束，再应用贮藏4.拉取 #将远端除我的分支的外的分支的修改，合并到我的远端分支5. 推送 #将远端我的分支推送成最新的；别的开发人员拉取后，即可同步我提交的内容...

2021-07-28 15:34:53 715

原创 CM 生成丢失kerberos票据报错

环境： SUSE(linux 的一个版本),本地使用kadmin 的管理员操作，用户登录错误都没有问题；但是启动到CM 集群上，生成 Service-pricipal 票据失败原因本地有多个 kdmin 执行文件；路径也不同；CM生成票据的脚本中：指定的path是一个枚举的多个路径；也就是说，找到哪个，就用哪个!但是他不是我们本地使用的那个kadmin。解决方法打开CM生成票据的脚本/opt/cloudera/cm/bin/genrate_creatials....

2021-07-21 18:17:45 536

原创 Python3.8 urllib下载一个excel文件中某列保存的所有附件

网上得知，python3.x 不再有urllib2, python3中,urllib和urllib2进行了合并,现在只有一个urllib模块样式为：申请号 .... 附件地址 123 http://..................xls 456 http://..................xls import pandas as pdimport osimport urllib.request as requestdef.

2021-06-24 14:50:53 500

原创 MySql的Communications link failure解决办法

我的情况是：mysql 5.7+_jdbc 5.1，使用root访问一个新建的database(名叫test）里的表stujava 连接mysql 报错；反复查看jdbc 的url 没有错；网上试了很多方法，1.比如url 后面加 AutoRec 参数2. 修改my.cof mysql 的配置文件，添加 wait timeout都不行。解决;给用户普通的dba 权限；mysql> GRANT ALL PRIVILEGES ON test.* to root@'%.

2021-06-08 13:13:03 704 1

原创 Amazon EBS 卷使用，挂载到linux 文件夹

原文https://docs.aws.amazon.com/zh_cn/AWSEC2/latest/UserGuide/ebs-using-volumes.html如下，是精简版首先，EBS可以理解为一个可移动磁盘（也可称为设备），呗添加到实例中，添加到实例的设备，在/dev 下有同名文件夹。比如一下例子，设备 nvme1n1, 则有 /dev/nvme1n1第一步，lsblk 命令，查看已添加到实例的的设备有哪些，如下图nvme1n1有100G，该设备已添加到实例，第二部

2021-05-12 12:04:03 836 1

原创 hbase查询命令

ps: 使用表名，列名，要使用单引号; 命令结束没有分号HBase 查询HBase的查询实现只提供两种方式：1、按指定RowKey获取唯一一条记录，get方法（org.apache.hadoop.hbase.client.Get）get 'stu',1 # 查询rowkey 为1 的记录2、按指定的条件获取一批记录，scan方法（org.apache.hadoop.hbase.client.Scan）注意 { } 大括号中，变量要大写scan 'stu', {LIMIT=&gt

2021-05-11 16:35:52 4430

原创 hbase bulkload 批处理插入数据多列数据

下面是submit.sh 文件内容(ps：注意几点内容，jars 下面的列举要在一行，source jar 要在一行，每行结束的反斜杠，注意写法：空格反斜杠，然后就换行)#!/bin/bashCDH_BIN='/data/opt/cloudera/parcels/CDH-6.2.0-1.cdh6.2.0.p0.967373/bin'LIB_PATH='/data/opt/cloudera/parcels/CDH-6.2.0-1.cdh6.2.0.p0.967373/lib'$CDH_BIN

2021-05-11 15:44:02 714

原创 CDH HDFS 服务没有找到文件浏览器入口，没有历史记录和回滚

造成上述原因是因为，安装的cdh不是企业版。如下图显示，我是在url 地方加入划圈部分，才显示了文件浏览器。下面也报错，并提示，这个特征是 cloudera entreprise 才有的

2021-05-08 17:46:52 400

原创 : File does not exist /user/yarn/mapreduce/mr-framework/3.0.0-cdh6.2.0-mr-framework.tar.gz

linux 系统运行一个wordCount程序。报错信息：Exception in thread "main" java.io.FileNotFoundException: File does not exist: hdfs:/********:8020/user/yarn/mapreduce/mr-framework/3.0.0-cdh6.2.0-mr-framework.tar.gz前往CM 页面，进入yarn 服务，如图点击，重新运行，就成功了。...

2021-05-08 17:40:32 1490

原创 cloudera Hbase 解决org.apache.hadoop.hbase.PleaseHoldException: Master is initializing

问题org.apache.hadoop.hbase.PleaseHoldException: Master is initializing原因hbase 依赖zookeeper我的原因是，清空namenode和datanode 的文件夹，然后了hdfs 页面点击“格式化”了，文件都不在了。linux 启动hbase shell 失败然后为了重新获得/data/目录下 hbase d的一些版本号等文件。删除原来的 hbase的实体，重新添加实体。重启现在启动hbase shel

2021-04-27 22:15:39 273

原创 cdh6.2 Hdfs 副本不足，解决

首先到hdfs 的配置界面，修改参数 replication 值为3再在 linux 终端输入hadoop fs -setrep -R 3/

2021-04-26 15:30:35 1902

原创 spark sql 读文件txt,json（未写完）

pom 文件，配置如下<dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.12</artifactId> <version>${spark.version}</version> </dependency>...

2021-04-19 11:49:39 201

原创 spark java IDEA 读文件json

报错：java.lang.ArrayIndexOutOfBoundsException: 10582原因有人说是 jdk 1.8 造成的解决办法：pom .xml 添加<dependency> <groupId>com.thoughtworks.paranamer</groupId> <artifactId>paranamer</artifactId> <version>2.8</ve.

2021-04-19 11:35:53 321

原创 Kerberos java实现客户端jdbc连接hive Intelliji_win7

我的环境是，公司同事给的AWS 的三台机器。每台机器有公司内网，和外网代码正常，看后文问题一：报错 Receive timed out，或者 connect time out原因：其实就是没有连接上hiveserver. 同事没有打开UDP 端口。我的win7_hosts文件没有添加机器的外网ip 和别名。解决：打开UDP 端口，配置hosts 文件。问题二：Login failure for hive@DEV.COM from keytab src/main/resources/.

2021-04-15 14:05:53 778

原创 Hdfs 的 ACL 基本理解

首先ACL （access control list）中文 “权限访问控制列表”，简单来说，就是记录 HDFS 的文件或者文件夹针对 owner,group, others 三个角色的权限是什么（xrw）类似于，我们常常查看文件的权限 ll 命令，有九位比如：xrw--x-rhdfs 默认是开启文件访问权限的，就是按照rwx 来进行判断是否有读写执行权限。然后根据用户拥有者，同组用户，非同组用户来进行权限管理然而ACL 是一个对于HDFS 的可选启动项，目的：制定 “除.

2021-03-29 16:54:45 1062

原创 Kerboros下的Hbase

目的测试Kerboros下hbase的权限A 没在kerberos 添加princple前B kerberos 添加princple后(没有权限)Hbase 是有5个权限 r(read) w(write) x（excute）c(create) a (admin)首先hbase（用户）拥有最高权限。步骤如下：find / -name "hbase*keytab" 需要先登录kinit hbase 那个keytab, 登录hbase shell, 输入us...

2021-03-22 15:17:01 317

原创 Cloudera Manager页面误删HA的备用namenode

HA的创建一般是至少需要两个namenode( (active,standby)背景由于机器死机找不到方法，开始删除hdfs的角色namenode，和secondary namenode开始补救:直接添加角色namenode 与secondary namenode添加成功，会说你添加的这个机器与你的高可用没有联系起来。（页面提示的是说，你的高可用HA 缺少nnamenode 等）按照我刚说的添加结束以后，到hdfs->"配置"页面搜索 nameservice在...

2021-03-19 16:28:56 167

原创 CM安装集群时，添加hive服务使用

添加HIve 的过程中，会要求配置 mysql, username, dbname 等连接信息。（取代了以往的在hive-site.xml 文件修改）；添加成功，可以认为Hive已经与mysql配置好了；验证运行mysql;mysql> show databases;会有曾经装好mysql 时，创建的那些数据库 hue,hive等，我这里hive设置的数据库名称为metastore;所以输入 use metastoredatabase changed再输入 show

2021-03-09 15:31:57 637

原创 linux下root操作hdfs文件系统出现permission denied 的错误

Linux centos 7.5 查看系统用户与用户组用户问题背景是是在登录 hdfs 的WEB 页面时，显示的文件夹user 的所有者是hdfs, 那么 root算什么？？首先明确 hdfs (文件系统) 与Linux的文件系统是平级的。因此在这两个不同的文件系统，用户的定义也不同如标题：在 HDFS 中用户 hdfs 是superuser (超级用户)对应的，在linux 中，用户 root 是superuser（超级用户）然而，在安装hadoop时，这些hdfs...

2021-03-08 13:22:42 1604

原创使用CM安装部署CDH集群的一个总结

第一安装mysql，和 java jdbc-mysql 的一个jar包添加到 java 中第二2.1安装Cloudera Manager Server 三个包[root@h1 cloudera-scm-server]# yum search cloudera=========================== N/S matched: cloudera ============================cloudera-manager-agent.x86_64 : Th..

2021-03-05 18:34:35 794 2

原创 centos 7.5 多台机器互信，或ssh免密登录

首先在配置集群时，经常使用scp 命令复制文件，已达到统一，比如、/etc/hosts 文件。修改一次，再scp到其他机器scp 格式： scp '本机目标文件或文件夹' ‘目标文件夹：比如 root@123.1.2.3:/etc/hosts’正常情况下，执行上面语句，会要求出入目标机器的的 @ 符前那个用户名的密码。(如果不知道密码，看一下方案2)操作次数多了，就很麻烦。所以产生了ssh免密。方案1 （知道目标机器的密码）# 创建密钥对[root@mast...

2021-03-03 18:54:20 538 1

原创 python 2.7 yum+pip+ psycopg 安装失败，解决

yum install epel-releaseyum -y install python-pippip install psycopg2-binary太难受，终于好了。如果已经安装失败，先执行下面的，再执行上面的yum remove python-pip 移除像这里就把 usr/bin下三个pip相关的文件（查找： ls /usr/bin | grep pip删掉 rm -rf/usr/bin/ ******8）以及 /site/pac...

2021-03-03 16:37:11 437 1

原创查询出月份、本月销售额、上月销售额

默认 month 不重复，此处month设置的比较简单为 char(10) 类型；其实是个简单的自我连接（错位一下）与左连接正式会完整一些，是 date类型比如 ‘2012-01-02’，然后销售额也需 sum 一下简单装换一下这个值sqlserver 下使用 MONTH（date）, YEAR(date) 返回的都是int 类型select month， sum（sales）from (selectYEAR(date)+MONTH（date）as month ..

2021-01-17 03:34:39 1702

原创 win7 强制结束进程

可能你和我一样，使用taskkill /im devenv.exe 并没用。因此保证两点：1. 管理员运行cmd点击电脑左下角查找程序 cmd然后右键使用管理员打开2.别忘了 /f结束进程使用（强制结束）(ps: 查看进程使用 tasklist )taskkill /im devenv.exe /f...

2021-01-16 05:26:27 720

原创 centos 7 mysql 安装失败之后换了版本

简直了，心路历程一下第一部分为失败案例。后来换了版本，第二版本ok第一部分tar -xvf MySQL-5.6.26-1.linux_glibc2.5.x86_64.rpm-bundle.tar得到 Mysql-server, *-client 等.rpm在centos 下通过 rpm -ivh 命令安装. 一开始还安装失败，由于conflict, 那就删除它发现 blablabla is needed blabla, 那就下载（yum install -y *******）.

2020-12-20 07:16:32 345 1

原创使用pyhdfs实现 Hdfs 客户端

# 以下代码拷贝直接使用# _*_ coding= UTF-8 _*_# python 3.8# console下载 pip install pyhdfsimport pyhdfsimport sysclient = pyhdfs.HdfsClient(hosts="192.168.175.11,50070",user_name="root") # 注意连接端口号使用逗号，不是分号# client = pyhdfs.HdfsClient(hosts="192.168.175.11

2020-12-14 00:57:59 764

原创初步启动datanode成功，但是data文件夹没有生成Current

首先明确以下，我的问题不同于多数问题（统一启动集群时，datacode 无法启动的问题。）如标题所示，本文问题所指：《成功启动datanode (hadoop-daemon.sh start datanode). 也成功生成文件夹 /root/hdpData/data/.但是没有生成 current文件夹》。也就是这个datanode 并没有加入到Namenode 同个集群我的环境：配置机器:A(namenode),/root/hdpData/name/current/* 成...

2020-12-11 00:56:03 5653

原创 pycharm添加miniconda (python3.7)

我的电脑已安装miniconda.exe这个应用程序，（像安装qq一样）然后打开 Pycharm界面创建一个项目(如下图) 步骤123451.定义项目名称2.选择conda3.选择python版本4 很重要，我自己一在安装文件夹里找python.exe.也能添加成功，但里面没有pandas这些包(这是错的).！！！要找Scripts\conda.exe这个应用程序。...

2020-10-16 22:13:44 1233

原创 ODI（Oracle Data Integrator) interface运行失败,需要定义KM interface 接口完整使用

接着接着教程点击查看。他的博客使用教程有1,2,3只是最后一篇 3，我在跟着做时，发现不足执行有错所以有需要的可以参考下文LKM, IKM这里是一个interface 接口为例。我的demo中是两个都是Oracle 数据库1.新建interface2. 先定义 mapping 窗口3. 再点击 flux 窗口(如图数字1 位置)。4.开始分a别定义KM 给source and traget注意点击他们的顶部如图中数字2 位置，...

2020-09-24 17:52:04 373

原创使用oracle data integrator ODI 11g 从安装 java 开始

使用ODI win 10 x643 步1. installJDK 8from herehttps://www.oracle.com/fr/java/technologies/javase/javase-jdk8-downloads.html配置 variable systemhttps://jingyan.baidu.com/article/a65957f42b1d1124e77f9b10.html2.installOracle database 11gfrom h...

2020-09-18 17:06:29 606

原创 .net core 3.0 session的使用以及实现购物车之 session中存储List类型

Part 1：首先.net core 与.net framework 是.net的不同版本。因此session的使用也不同那么问题来了--.net core中使用session。它复杂一些。1.首先需要下载一个插件（Miscrosoft.AspNetCore.Session）在解决方案的窗口（一般在右边）下你的项目里找到--“依赖项或者叫dependances”--右击选择“管...

2020-02-14 03:05:08 1170

Axel_Fran的博客