自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(37)
  • 收藏
  • 关注

原创 Hive 3.1.2 国内镜像下载地址

快速,快速Index of /apache/hive/hive-3.1.2

2022-01-03 22:33:27 5019

原创 mapreduce 编程

首先 map task 写一个 继承Mapper 的类;中间可能写一个 分文件的一个partition 的类;(注意设置 reducetask 的数量)中间还有可能写一个 combiner. 也是继承Reducer. 可用来优化最后 reduce task 写一个 继承Reducer 的类;1. 简单的Wordcount; 使用普通的 hadoop 序列化数据类型就可以,Text, LongWritable;2.实现排序, 一般就是 一行多个字段, order by 其中一个或者多个;.

2021-12-08 00:08:38 1561 1

原创 IDEA 执行Mapreduce 程序

以下提到三种方式方式1: 首先在windows 的IDEA写好代码,代码中不指出 在哪运行,就是本地运行。即在windows 运行环境。此时需要满足以下条件:-- 下载hadoop 安装包,解压。-- 百度 “hadoop winutils”. 找到这个这个资源。选择对应hadoop版本号。然后应该会是一个 bin 文件夹,其中就包含了winutils.exe。将这个 文件夹复制到 先前解压的hadoop 安装包中,替换掉安装包中的 bin 文件夹。-- 最后在这个bin文件夹中找到 had

2021-12-07 23:46:34 2461

原创 spark 第一个程序, 求PI 值

spark-Example-PI1.找到class(一般在spark的安装包里)find / -name spark找到jar 包2.编写sh执行脚本脚本内submit的命令格式要求严格,-换行需使用 “斜杠”, 斜杠后无空格- jars 这一项为,手动添加的外部jars 包, 需只占用一行,多个jar包用逗号隔开vim submit.sh (注意权限,需要是x, 可执行文件)#!/bin/bashCDH_BIN='/opt/cloudera.

2021-08-31 18:09:49 321

原创 JAVA 树状结构数据_根到每个最底层叶子的路径

数据结构:public class node { private String text; private List<node>childList; public String getText() { return text; } public void setText(String text) { this.text = text; } public List<node> get

2021-08-10 17:54:45 349

原创 Hive 分区, alter添加分区,字段顺序无所谓

测试, 不按照 创建语句的分区 字段顺序,添加分区。 效果一样

2021-07-30 11:41:39 437

原创 sourcetree 使用

1. 点击“获取”,查看是否有变化2.暂存目前要提交的文件3. 填写msg ,点击提交, #提交到我的远端分支3.2 如果有修改其他文件,暂时不用推送的,d暂存起来,在点击贮藏。 等第五步结束,再应用贮藏4.拉取 #将远端除我的分支的外的分支的修改,合并到我的远端分支5. 推送 #将远端我的分支推送成最新的; 别的开发人员拉取后,即可同步我提交的内容...

2021-07-28 15:34:53 371

原创 CM 生成丢失kerberos票据 报错

环境: SUSE(linux 的一个版本),本地使用kadmin 的管理员操作,用户登录错误都没有问题;但是启动到CM 集群上,生成 Service-pricipal 票据失败原因本地有多个 kdmin 执行文件; 路径也不同;CM生成票据的脚本中:指定的path是一个枚举的多个路径; 也就是说,找到哪个,就用哪个!但是他不是我们本地使用的那个kadmin。解决方法打开CM生成票据的脚本/opt/cloudera/cm/bin/genrate_creatials....

2021-07-21 18:17:45 369

原创 Python3.8 urllib下载一个excel文件中某列保存的所有附件

网上得知,python3.x 不再有urllib2, python3中,urllib和urllib2进行了合并,现在只有一个urllib模块样式为:申请号 .... 附件地址 123 http://..................xls 456 http://..................xls import pandas as pdimport osimport urllib.request as requestdef.

2021-06-24 14:50:53 374

原创 MySql的Communications link failure解决办法

我的情况是:mysql 5.7+_jdbc 5.1, 使用root访问一个新建的database(名叫test)里的表stujava 连接mysql 报错;反复查看jdbc 的url 没有错;网上试了很多方法,1.比如url 后面加 AutoRec 参数2. 修改my.cof mysql 的配置文件,添加 wait timeout都不行。解决;给用户普通的dba 权限;mysql> GRANT ALL PRIVILEGES ON test.* to root@'%.

2021-06-08 13:13:03 428 1

原创 Amazon EBS 卷使用, 挂载到linux 文件夹

原文https://docs.aws.amazon.com/zh_cn/AWSEC2/latest/UserGuide/ebs-using-volumes.html如下,是精简版首先,EBS可以理解为 一个可移动磁盘(也可称为设备),呗添加到实例中,添加到实例的设备,在/dev 下有同名文件夹。 比如一下例子,设备 nvme1n1, 则有 /dev/nvme1n1第一步,lsblk 命令,查看已添加到实例的 的设备有哪些,如下图nvme1n1有100G,该设备已添加到实例,第二部

2021-05-12 12:04:03 474 1

原创 hbase查询命令

ps: 使用表名,列名, 要使用单引号; 命令结束没有分号HBase 查询HBase的查询实现只提供两种方式:1、按指定RowKey获取唯一一条记录,get方法(org.apache.hadoop.hbase.client.Get)get 'stu',1 # 查询rowkey 为1 的记录2、按指定的条件获取一批记录,scan方法(org.apache.hadoop.hbase.client.Scan)注意 { } 大括号中,变量要大写scan 'stu', {LIMIT=&gt

2021-05-11 16:35:52 3937

原创 hbase bulkload 批处理插入数据 多列数据

下面是submit.sh 文件内容(ps:注意 几点内容,jars 下面的列举要在一行,source jar 要在一行,每行结束的反斜杠,注意写法:空格 反斜杠,然后就换行)#!/bin/bashCDH_BIN='/data/opt/cloudera/parcels/CDH-6.2.0-1.cdh6.2.0.p0.967373/bin'LIB_PATH='/data/opt/cloudera/parcels/CDH-6.2.0-1.cdh6.2.0.p0.967373/lib'$CDH_BIN

2021-05-11 15:44:02 564

原创 CDH HDFS 服务没有找到 文件浏览器入口,没有历史记录和回滚

造成上述原因是因为, 安装的cdh不是企业版。如下图显示,我是在url 地方加入划圈部分,才显示了文件浏览器。下面也报错,并提示,这个特征是 cloudera entreprise 才有的

2021-05-08 17:46:52 291

原创 : File does not exist /user/yarn/mapreduce/mr-framework/3.0.0-cdh6.2.0-mr-framework.tar.gz

linux 系统运行一个wordCount程序。报错信息:Exception in thread "main" java.io.FileNotFoundException: File does not exist: hdfs:/********:8020/user/yarn/mapreduce/mr-framework/3.0.0-cdh6.2.0-mr-framework.tar.gz前往CM 页面,进入yarn 服务,如图点击,重新运行,就成功了。...

2021-05-08 17:40:32 1313

原创 cloudera Hbase 解决org.apache.hadoop.hbase.PleaseHoldException: Master is initializing

问题org.apache.hadoop.hbase.PleaseHoldException: Master is initializing原因hbase 依赖zookeeper我的原因是,清空namenode和datanode 的文件夹,然后了hdfs 页面点击“格式化”了, 文件都不在了。linux 启动hbase shell 失败然后为了重新获得/data/目录下 hbase d的一些版本号等文件。删除原来的 hbase的实体, 重新添加实体。重启现在启动hbase shel

2021-04-27 22:15:39 162

原创 cdh6.2 Hdfs 副本不足, 解决

首先到hdfs 的配置界面,修改参数 replication 值为3再在 linux 终端 输入hadoop fs -setrep -R 3/

2021-04-26 15:30:35 1521

原创 spark sql 读文件txt,json(未写完)

pom 文件,配置如下<dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.12</artifactId> <version>${spark.version}</version> </dependency>...

2021-04-19 11:49:39 118

原创 spark java IDEA 读文件json

报错:java.lang.ArrayIndexOutOfBoundsException: 10582原因 有人说是 jdk 1.8 造成的解决办法:pom .xml 添加<dependency> <groupId>com.thoughtworks.paranamer</groupId> <artifactId>paranamer</artifactId> <version>2.8</ve.

2021-04-19 11:35:53 224

原创 Kerberos java实现客户端jdbc连接hive Intelliji_win7

我的环境是,公司同事给的AWS 的三台机器。每台机器有公司内网,和外网代码正常,看后文问题一:报错 Receive timed out, 或者 connect time out原因: 其实就是没有连接上hiveserver. 同事没有打开UDP 端口。我的win7_hosts文件没有添加机器的外网ip 和别名。解决:打开UDP 端口,配置hosts 文件。问题二:Login failure for hive@DEV.COM from keytab src/main/resources/.

2021-04-15 14:05:53 550

原创 Hdfs 的 ACL 基本理解

首先ACL (access control list) 中文 “权限访问控制列表”, 简单来说,就是记录 HDFS 的文件或者文件夹 针对 owner,group, others 三个角色的权限是什么(xrw)类似于,我们常常查看文件的权限 ll 命令, 有九位 比如:xrw--x-rhdfs 默认是开启文件访问权限的,就是按照rwx 来进行判断是否有读写执行权限。然后根据用户拥有者, 同组用户, 非同组用户 来进行权限管理然而ACL 是一个对于HDFS 的可选启动项, 目的: 制定 “除.

2021-03-29 16:54:45 877

原创 Kerboros下的Hbase

目的测试Kerboros下hbase的权限A 没在kerberos 添加princple前B kerberos 添加princple后(没有权限)Hbase 是有5个权限 r(read) w(write) x(excute)c(create) a (admin)首先hbase(用户) 拥有最高权限。步骤如下:find / -name "hbase*keytab" 需要先登录kinit hbase 那个keytab, 登录hbase shell, 输入us...

2021-03-22 15:17:01 177

原创 Cloudera Manager页面误删HA的备用namenode

HA的创建一般是至少需要两个namenode( (active,standby)背景由于机器死机找不到方法,开始删除hdfs的角色namenode,和secondary namenode开始补救:直接添加角色namenode 与secondary namenode添加成功,会说你添加的这个机器与你的高可用没有联系起来。(页面提示的是说,你的高可用HA 缺少nnamenode 等)按照我刚说的添加结束以后,到hdfs->"配置"页面 搜索 nameservice在...

2021-03-19 16:28:56 82

原创 CM安装集群时,添加hive服务使用

添加HIve 的过程中,会要求配置 mysql, username, dbname 等连接信息。(取代了以往的在hive-site.xml 文件修改);添加成功,可以认为Hive已经与mysql配置好了;验证运行mysql;mysql> show databases;会有曾经 装好mysql 时,创建的那些数据库 hue,hive等,我这里hive设置的数据库名称为metastore;所以输入 use metastoredatabase changed再输入 show

2021-03-09 15:31:57 486

原创 linux下root操作hdfs文件系统出现permission denied 的错误

Linux centos 7.5 查看 系统用户与用户组用户问题背景是是在登录 hdfs 的WEB 页面时, 显示的文件夹user 的所有者是hdfs, 那么 root算什么??首先明确 hdfs (文件系统) 与Linux的文件系统是平级的。 因此在这两个不同的文件系统,用户的定义也不同如标题:在 HDFS 中 用户 hdfs 是superuser (超级用户)对应的, 在linux 中, 用户 root 是superuser(超级用户)然而,在安装hadoop时, 这些hdfs...

2021-03-08 13:22:42 1340

原创 使用CM安装部署CDH集群的一个总结

第一安装mysql,和 java jdbc-mysql 的一个jar包 添加到 java 中第二2.1安装Cloudera Manager Server 三个包[root@h1 cloudera-scm-server]# yum search cloudera=========================== N/S matched: cloudera ============================cloudera-manager-agent.x86_64 : Th..

2021-03-05 18:34:35 601 2

原创 centos 7.5 多台机器互信,或ssh免密登录

首先 在配置 集群时,经常使用scp 命令 复制文件,已达到统一,比如 、/etc/hosts 文件。修改一次,再scp到其他机器scp 格式 : scp '本机目标文件或文件夹' ‘目标文件夹:比如 root@123.1.2.3:/etc/hosts’正常情况下,执行上面语句,会要求出入目标机器的 的 @ 符前那个用户名的密码。(如果不知道密码,看一下方案2)操作次数多了,就很麻烦。所以产生了ssh免密。方案1 (知道目标机器的密码)# 创建密钥对[root@mast...

2021-03-03 18:54:20 381 1

原创 python 2.7 yum+pip+ psycopg 安装失败,解决

yum install epel-releaseyum -y install python-pippip install psycopg2-binary太难受,终于好了。如果已经安装失败, 先执行下面的, 再执行上面的yum remove python-pip 移除像这里就把 usr/bin下三个pip相关的文件(查找: ls /usr/bin | grep pip删掉 rm -rf/usr/bin/ ******8)以及 /site/pac...

2021-03-03 16:37:11 315 1

原创 查询出月份、本月销售额、上月销售额

默认 month 不重复, 此处month设置的比较简单 为 char(10) 类型;其实是个简单的自我连接(错位一下) 与 左连接正式会完整一些, 是 date类型 比如 ‘2012-01-02’,然后销售额也需 sum 一下简单装换一下 这个值sqlserver 下使用 MONTH(date), YEAR(date) 返回的都是int 类型select month, sum(sales)from (selectYEAR(date)+MONTH(date)as month ..

2021-01-17 03:34:39 1451

原创 win7 强制结束进程

可能你和我一样, 使用taskkill /im devenv.exe 并没用。因此保证两点:1. 管理员运行cmd点击电脑左下角查找程序 cmd然后右键使用管理员打开2.别忘了 /f结束进程使用(强制结束)(ps: 查看进程 使用 tasklist )taskkill /im devenv.exe /f...

2021-01-16 05:26:27 433

原创 centos 7 mysql 安装失败之后换了版本

简直了,心路历程一下第一部分为失败案例。后来换了版本,第二版本ok第一部分tar -xvf MySQL-5.6.26-1.linux_glibc2.5.x86_64.rpm-bundle.tar得到 Mysql-server, *-client 等.rpm在centos 下通过 rpm -ivh 命令安装. 一开始还安装失败,由于conflict, 那就删除它发现 blablabla is needed blabla, 那就下载 (yum install -y *******).

2020-12-20 07:16:32 190 1

原创 使用pyhdfs实现 Hdfs 客户端

# 以下代码拷贝直接使用# _*_ coding= UTF-8 _*_# python 3.8# console下载 pip install pyhdfsimport pyhdfsimport sysclient = pyhdfs.HdfsClient(hosts="192.168.175.11,50070",user_name="root") # 注意连接端口号使用逗号,不是 分号# client = pyhdfs.HdfsClient(hosts="192.168.175.11

2020-12-14 00:57:59 591

原创 初步启动datanode成功,但是data文件夹没有生成Current

首先明确以下,我的问题不同于 多数问题(统一启动集群时,datacode 无法启动的问题。)如标题所示,本文问题所指:《成功启动datanode (hadoop-daemon.sh start datanode). 也成功生成 文件夹 /root/hdpData/data/.但是没有生成 current文件夹》。 也就是这个datanode 并没有加入到Namenode 同个集群我的环境:配置机器:A(namenode),/root/hdpData/name/current/* 成...

2020-12-11 00:56:03 5061

原创 pycharm添加miniconda (python3.7)

我的电脑已安装miniconda.exe这个应用程序, (像安装qq一样)然后打开 Pycharm界面创建一个项目(如下图) 步骤123451.定义项目名称2.选择conda3.选择python版本4 很重要, 我自己一在安装文件夹里找python.exe.也能添加成功, 但里面没有pandas这些包(这是错的).!!!要找Scripts\conda.exe这个应用程序。...

2020-10-16 22:13:44 965

原创 ODI(Oracle Data Integrator) interface运行失败,需要定义KM interface 接口 完整使用

接着 接着教程点击查看。他的博客 使用教程 有1,2,3只是最后一篇 3,我在跟着做时,发现不足 执行有错所以有需要的可以参考 下文LKM, IKM这里是一个interface 接口为例。我的demo中是两个都是Oracle 数据库1.新建interface2. 先定义 mapping 窗口3. 再点击 flux 窗口(如图 数字1 位置)。4.开始分a别定义KM 给source and traget注意点击 他们的顶部 如图中数字2 位置,...

2020-09-24 17:52:04 231

原创 使用oracle data integrator ODI 11g 从安装 java 开始

使用ODI win 10 x643 步1. installJDK 8from herehttps://www.oracle.com/fr/java/technologies/javase/javase-jdk8-downloads.html配置 variable systemhttps://jingyan.baidu.com/article/a65957f42b1d1124e77f9b10.html2.installOracle database 11gfrom h...

2020-09-18 17:06:29 447

原创 .net core 3.0 session的使用 以及 实现购物车 之 session中存储List类型

Part 1:首先.net core 与.net framework 是.net的不同版本。因此session的使用也不同那么问题来了--.net core中使用session。 它复杂一些。1.首先需要下载一个插件(Miscrosoft.AspNetCore.Session)在解决方案的窗口(一般在右边)下你的项目里找到--“依赖项 或者叫dependances”--右击选择“管...

2020-02-14 03:05:08 1039

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除