自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(60)
  • 收藏
  • 关注

原创 CentOS下MySQL忘记root密码解决方法

1.首先确认服务器出于安全的状态,也就是没有人能够任意地连接MySQL数据库。因为在重新设置MySQL的root密码的期间,MySQL数据库完全出于没有密码保护的状态下,其他的用户也可以任意地登录和修改MySQL的信息。可以采用将MySQL对外的端口封闭,并且停止Apache以及所有的用户进程的方法实现服务器的准安全状态。最安全的状态是到服务器的Console上面操作,并且拔掉网线。2...

2018-07-27 10:34:46 259

原创 用mapreduce写wordcount

import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.a...

2018-04-09 11:06:19 297

原创 mapreduce针对n列orc文件的读写

建300列的ORC表,可以用execl简单建一个300列,10000行的数据,复制成以tab分割的txt文件 hdfs dfs -put ddd.txt hdfs://hadoop:9000/tmp/input/create table test_orc_300(c1 string , c2 string , c3 string , c4 str...

2018-04-09 11:02:40 913

原创 The auxService:mapreduce_shuffle does not exist问题解决

调试mapreduce发现问题Container launch failed for container_1522728182746_0001_01_000004 : org.apache.hadoop.yarn.exceptions.InvalidAuxServiceException: The auxService:mapreduce_shuffle does not exist ...

2018-04-03 12:15:16 2093 1

转载 hive优化十大原则

hive之于数据民工,就如同锄头之于农民伯伯。hive用的好,才能从地里(数据库)里挖出更多的数据来。用过hive的朋友,我想或多或少都有类似的经历:一天下来,没跑几次hive,就到下班时间了。hive在极大数据或者数据不平衡等情况下,表现往往一般,因此也出现了presto、spark-sql等替代品。今天不谈其它,就来说说关于hive,个人的一点心得。一. 表连接优化 将大表放...

2018-03-27 10:15:02 365

转载 map和reduce 个数的设定 (Hive优化)经典

一、 控制hive任务中的map数: 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);举例: a) 假设input目录下有1个文件a,大小为780M,那么...

2018-03-14 15:53:11 311

原创 Pycharm破解方法注册码

方法一: 【step 1】双击桌面,打开安装好的软件图标: 【step 2】在弹出的界面中输入:在激活界面的License server输入:http://idea.liyang.io方法二:【step 1】在浏览器中输入:http://idea.lanyus.com/打开如下页面:点击获得注册码【step 2】无需修改用户名,点击获取注册码。复制该注册码,粘贴在注册界面的Activation

2018-03-07 14:42:15 720

转载 pycharm无法显示matplotlib绘图问题

最近开始接触matplotlib,1.首先安装matplotlib库和其依赖的一些其他库,例如:numpy,scipy和pandas等2.开始进行简单的编码工作,并在PyCharm中运行,出现如下错误:Traceback (most recent call last): File "J:/MyGit/pythonTest/GetTegeather/test06.py", lin...

2018-03-07 14:36:01 1708

转载 IntelliJ IDEA 2017.2.5 破解过程[详细步骤](Mac OS & Windows)

> 破解步骤1.首先进入https://www.jetbrains.com官网进行下载。本人下载版本版本信息:Version: 2017.2.5Build: 172.4343.14Released: September 26, 2017注意:近期收到评论,官网更新有变化,由于本人尚未在最新的2017.3版本中进行破解,为了保证能按本文章流程正常破解,这里建议下载与本文章使用的版本2

2018-01-11 16:28:12 48967

原创 shell脚本实现离线自动化安装superset2.0

#!/bin/bashNUM=$#MYSQL_HOST=$1MYSQL_USER="root"MYSQL_PASSWORD="root"MYSQL_USER_S="superset"MYSQL_PASSWORD_S="superset"SUPERSET_INSTALL="/tmp"PIP_INSTALL="/tmp/pip-devel"SUPERSET_HOME="/opt/ven

2017-12-04 16:34:55 1163

转载 java.sql.SQLException: 无效的列索引

java.sql.SQLException: 无效的列索引

2017-12-04 15:45:25 464

转载 JAVA回调机制(CallBack)详解

JAVA回调机制(CallBack)详解

2017-11-30 10:26:13 277 1

原创 mvn项目pom.xml写法(hadoop)

mvn项目pom.xml写法(hadoop)

2017-11-29 14:19:51 996

原创 java通过jdbc连接Oracle通过数据库连接池实现增删改查

java通过jdbc连接Oracle通过数据库连接池实现增删改查

2017-11-28 15:31:07 7510

原创 HDFS工具类

HDFS工具类

2017-11-28 11:52:57 372

原创 java遍历数组并重新拼接数组里的元素

java遍历数组并重新拼接数组里的元素

2017-11-28 10:39:01 6620

原创 java从命令行参数args提取多个参数的工具类

java从命令行参数args提取多个参数的工具类

2017-11-28 10:20:25 3273

转载 linux sed命令详解

简介sed 是一种在线编辑器,它一次处理一行内容。处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space),接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。接着处理下一行,这样不断重复,直到文件末尾。文件内容并没有 改变,除非你使用重定向存储输出。Sed主要用来自动编辑一个或多个文件;简化对文件的反复操作;编写转换程序等。 

2017-11-10 10:27:45 440

原创 linux awk命令详解

简介awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk,gawk 是 AWK 的 GNU 版本。awk其名称得自于它的创始人 Alfr

2017-11-10 10:25:32 306

转载 Linux netstat命令详解

转载:https://www.cnblogs.com/ggjucheng/archive/2012/01/08/2316661.html简介Netstat 命令用于显示各种网络相关信息,如网络连接,路由表,接口状态 (Interface Statistics),masquerade 连接,多播成员 (Multicast Memberships) 等等。输出信息含义执

2017-11-10 10:21:38 364

转载 使用teragen产生数据

转载地址:http://www.opstool.com/article/249使用Teragen来产生数据,示例如下:hadoop jar hadoop-*-examples.jar teragen 参数1 参数2teragen的参数解释:参数1:表示要产生的数据的行数。Teragen每行数据的大小是100B。要产生1T的数据,需要的行数=102410241024*

2017-11-10 10:03:58 2741

转载 hdfs fsck命令查看HDFS文件对应的文件块信息(Block)和位置信息

在HDFS中,提供了fsck命令,用于检查HDFS上文件和目录的健康状态、获取文件的block信息和位置信息等。fsck命令必须由HDFS超级用户来执行,普通用户无权限。

2017-11-10 09:48:32 1596

原创 离线安装superset-0.19.1文档

离线安装superset文档shell脚本安装配置mysql数据库yum install gcc gcc-c++ libffi-devel python-devel  python-pip python-wheel openssl-devel libsasl2-devel openldap-devel没有

2017-09-28 09:46:12 1881

原创 在线安装superset

在线安装superset一、       安装依赖包yum upgrade python-setuptools yum install gcc gcc-c++ libffi-devel python-devel  python-pip python-wheel openssl-devel libsasl2-devel openldap-devel没有

2017-09-26 14:19:04 714

原创 Linux yum安装MySQL5.7

一、安装配置MySQL的yum源12345678910# 安装MySQL的yum源,下面是RHEL6系列的下载地址rpm -Uvh http://dev.mysql.com/get/mysql-community-release-el6-5.noarch.rpm

2017-08-28 09:40:28 233

转载 Delegation Token

转自:http://yangyoupeng-cn-fujitsu-com.iteye.com/blog/1812164若设置了dfs.block.access.token.enable=true时,启动时的日志中: 会有这样两条日志: 2013-02-21 19:59:07,006 INFO org.apache.hadoop.hdfs.server.blockmanagement.B

2017-08-11 16:00:24 611

原创 卸载centos7自带的OpenJDK

[root@hadoop]#rpm -qa | grep javajava-1.8.0-openjdk-headless-1.8.0.101-3.b13.el7_2.x86_64javapackages-tools-3.4.1-11.el7.noarchtzdata-java-2016f-1.el7.noarchjava-1.8.0-openjdk-1.8.0.101-3.b13.

2017-08-11 12:27:33 299

原创 Linux如何查看JDK的安装路径

1:echo $JAVA_HOME使用$JAVA_HOME的话能定位JDK的安装路径的前提是配置了环境变量$JAVA_HOME,否则如下所示,根本定位不到JDK的安装路径[root@localhost ~]# java -versionjava version "1.7.0_65"OpenJDK Runtime Environment (rhel-2.5.1.2.e

2017-08-11 11:27:58 223

原创 Linux jdk安装多个版本并进行切换

1. 上传jdk7 和 jdk8 包2. 解压[root@localhost webapps]# tar -zxvf /package/jdk-7u80-linux-x64.tar.gz 3. 配置jdk变量 vi /etc/profileexport JAVA_HOME=/package/jdk1.7.0_80export CLASSPATH=.:$

2017-08-11 11:26:36 332

原创 CentOS 7.0下使用yum安装MySQL

CentOS7默认数据库是mariadb,配置等用着不习惯,因此决定改成mysql,但是CentOS7的yum源中默认好像是没有mysql的。为了解决这个问题,我们要先下载mysql的repo源。1.下载mysql的repo源$ wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm2.安装my

2017-08-11 10:27:32 250

原创 centos7在线安装cloudera manager 5

前期准备:centos71.修改主机名:hostnamectl set-hostname  2.设计系统默认启动级别:设置为多用户状态systemctl set-default multi-user.target设置为图形化启动systemctl set-default graphical.target3.配置hadoop用户sudoer权限vi /etc/su

2017-08-11 08:29:00 693

原创 离线安装Cloudera Manager 5和CDH5(最新版5.12.0) 完全教程

关于CDH和Cloudera ManagerCDH (Cloudera's Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境。Cloudera Manager则是为了便于在集群中进行Hadoop等大数据处理相关的服务

2017-08-10 12:44:01 7388

转载 堆排序

堆的概念在介绍堆排序之前,首先需要说明一下,堆是个什么玩意儿。堆是一棵顺序存储的完全二叉树。其中每个结点的关键字都不大于其孩子结点的关键字,这样的堆称为小根堆。其中每个结点的关键字都不小于其孩子结点的关键字,这样的堆称为大根堆。举例来说,对于n个元素的序列{R0, R1, ... , Rn}当且仅当满足下列关系之一时,称之为堆:(1) Ri 且 Ri 小根堆)(2) R

2017-07-15 11:37:26 271

转载 Hive性能优化

1.概述 本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。2.介绍  首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce

2017-07-14 15:14:14 344

原创 ZooKeeper级联删除javaAPI

package cn.ssy.zk.api;import java.util.List;import org.apache.zookeeper.ZooKeeper;public class ZKAPIDemoTest { private static String connectString ="hadoop02:2181"; private static int session

2017-05-18 09:38:48 623

原创 MapReduce三次排序

题目: 20170308,小强,小牛斗地主,22,360手机助手,0.2版本,北京 20170308,小强,小牛斗地主,14,360手机助手,0.3版本,北京 20170308,小强,小牛斗地主,13,360手机助手,0.3版本,北京 20170308,小强,小牛斗地主,16,360手机助手,0.4版本,北京 20170308,小强,小牛斗地主,18,360手机助手,0.4版本,北京

2017-05-07 16:42:59 1011

原创 shell 从输入的参数里找出最大值,最小值,平均值

max=$1min=$2sum=0for i in $@do if [ $max -lt $i ];then max=$i fi if [ $min -gt $i ];then min=$i fi let sum+=idone echo "max:$max" echo "min:$min" echo -n "a

2017-04-21 18:31:39 13541

原创 shell编写倒九九表

#!/bin/bashfor((i=9;i>=1;i--)) do for((j=i;j>=1;j--)) do echo -n -e "$i*$j="$[i*j]"\t" done echo -e "\n"done

2017-04-21 16:56:42 460

原创 javaScript获取当前16位时间及日期

<!DOCTYPE html><html> <head> <meta charset="utf-8" /> <title>显示16位系统时间</title> </head> <body> 当前时间:<span id="showtimes"></span> <script type="text/javascript" >

2017-03-22 20:25:22 2956

转载 JS常用正则表达式

整数或者小数:^[0-9]+\.{0,1}[0-9]{0,2}$只能输入数字:"^[0-9]*$"。只能输入n位的数字:"^\d{n}$"。只能输入至少n位的数字:"^\d{n,}$"。只能输入m~n位的数字:。"^\d{m,n}$"只能输入零和非零开头的数字:"^(0|[1-9][0-9]*)$"。只能输入有两位小数的正实数:"^[0-9]+(.[0-9]{2})?$"。

2017-03-22 14:31:14 1905

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除