Simon_Sun_1984-CSDN博客

原创 CentOS下MySQL忘记root密码解决方法

1．首先确认服务器出于安全的状态，也就是没有人能够任意地连接MySQL数据库。因为在重新设置MySQL的root密码的期间，MySQL数据库完全出于没有密码保护的状态下，其他的用户也可以任意地登录和修改MySQL的信息。可以采用将MySQL对外的端口封闭，并且停止Apache以及所有的用户进程的方法实现服务器的准安全状态。最安全的状态是到服务器的Console上面操作，并且拔掉网线。2...

2018-07-27 10:34:46 261

原创用mapreduce写wordcount

import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.a...

2018-04-09 11:06:19 301

原创 mapreduce针对n列orc文件的读写

建300列的ORC表，可以用execl简单建一个300列，10000行的数据，复制成以tab分割的txt文件 hdfs dfs -put ddd.txt hdfs://hadoop:9000/tmp/input/create table test_orc_300(c1 string , c2 string , c3 string , c4 str...

2018-04-09 11:02:40 920

原创 The auxService:mapreduce_shuffle does not exist问题解决

调试mapreduce发现问题Container launch failed for container_1522728182746_0001_01_000004 : org.apache.hadoop.yarn.exceptions.InvalidAuxServiceException: The auxService:mapreduce_shuffle does not exist ...

2018-04-03 12:15:16 2139 1

转载 hive优化十大原则

hive之于数据民工，就如同锄头之于农民伯伯。hive用的好，才能从地里（数据库）里挖出更多的数据来。用过hive的朋友，我想或多或少都有类似的经历：一天下来，没跑几次hive，就到下班时间了。hive在极大数据或者数据不平衡等情况下，表现往往一般，因此也出现了presto、spark-sql等替代品。今天不谈其它，就来说说关于hive，个人的一点心得。一. 表连接优化将大表放...

2018-03-27 10:15:02 367

转载 map和reduce 个数的设定（Hive优化）经典

一、控制hive任务中的map数: 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；举例： a) 假设input目录下有1个文件a,大小为780M,那么...

2018-03-14 15:53:11 313

原创 Pycharm破解方法注册码

方法一：【step 1】双击桌面，打开安装好的软件图标：【step 2】在弹出的界面中输入：在激活界面的License server输入：http://idea.liyang.io方法二：【step 1】在浏览器中输入：http://idea.lanyus.com/打开如下页面：点击获得注册码【step 2】无需修改用户名，点击获取注册码。复制该注册码，粘贴在注册界面的Activation

2018-03-07 14:42:15 728

转载 pycharm无法显示matplotlib绘图问题

最近开始接触matplotlib,1.首先安装matplotlib库和其依赖的一些其他库,例如:numpy,scipy和pandas等2.开始进行简单的编码工作,并在PyCharm中运行,出现如下错误:Traceback (most recent call last): File "J:/MyGit/pythonTest/GetTegeather/test06.py", lin...

2018-03-07 14:36:01 1716

转载 IntelliJ IDEA 2017.2.5 破解过程[详细步骤](Mac OS & Windows)

> 破解步骤1.首先进入https://www.jetbrains.com官网进行下载。本人下载版本版本信息：Version: 2017.2.5Build: 172.4343.14Released: September 26, 2017注意：近期收到评论，官网更新有变化，由于本人尚未在最新的2017.3版本中进行破解，为了保证能按本文章流程正常破解，这里建议下载与本文章使用的版本2

2018-01-11 16:28:12 49044

原创 shell脚本实现离线自动化安装superset2.0

#!/bin/bashNUM=$#MYSQL_HOST=$1MYSQL_USER="root"MYSQL_PASSWORD="root"MYSQL_USER_S="superset"MYSQL_PASSWORD_S="superset"SUPERSET_INSTALL="/tmp"PIP_INSTALL="/tmp/pip-devel"SUPERSET_HOME="/opt/ven

2017-12-04 16:34:55 1169

转载 java.sql.SQLException: 无效的列索引

java.sql.SQLException: 无效的列索引

2017-12-04 15:45:25 468

转载 JAVA回调机制(CallBack)详解

JAVA回调机制(CallBack)详解

2017-11-30 10:26:13 283 1

原创 mvn项目pom.xml写法(hadoop)

mvn项目pom.xml写法(hadoop)

2017-11-29 14:19:51 997

原创 java通过jdbc连接Oracle通过数据库连接池实现增删改查

java通过jdbc连接Oracle通过数据库连接池实现增删改查

2017-11-28 15:31:07 7516

原创 HDFS工具类

HDFS工具类

2017-11-28 11:52:57 374

原创 java遍历数组并重新拼接数组里的元素

java遍历数组并重新拼接数组里的元素

2017-11-28 10:39:01 6624

原创 java从命令行参数args提取多个参数的工具类

java从命令行参数args提取多个参数的工具类

2017-11-28 10:20:25 3285

转载 linux sed命令详解

简介sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾。文件内容并没有改变，除非你使用重定向存储输出。Sed主要用来自动编辑一个或多个文件；简化对文件的反复操作；编写转换程序等。

2017-11-10 10:27:45 441

原创 linux awk命令详解

简介awk是一个强大的文本分析工具，相对于grep的查找，sed的编辑，awk在其对数据分析并生成报告时，显得尤为强大。简单来说awk就是把文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk，未作特别说明，一般指gawk，gawk 是 AWK 的 GNU 版本。awk其名称得自于它的创始人 Alfr

2017-11-10 10:25:32 307

转载 Linux netstat命令详解

转载：https://www.cnblogs.com/ggjucheng/archive/2012/01/08/2316661.html简介Netstat 命令用于显示各种网络相关信息，如网络连接，路由表，接口状态 (Interface Statistics)，masquerade 连接，多播成员 (Multicast Memberships) 等等。输出信息含义执

2017-11-10 10:21:38 367

转载使用teragen产生数据

转载地址：http://www.opstool.com/article/249使用Teragen来产生数据，示例如下：hadoop jar hadoop-*-examples.jar teragen 参数1 参数2teragen的参数解释：参数1：表示要产生的数据的行数。Teragen每行数据的大小是100B。要产生1T的数据，需要的行数=102410241024*

2017-11-10 10:03:58 2765

转载 hdfs fsck命令查看HDFS文件对应的文件块信息(Block)和位置信息

在HDFS中，提供了fsck命令，用于检查HDFS上文件和目录的健康状态、获取文件的block信息和位置信息等。fsck命令必须由HDFS超级用户来执行，普通用户无权限。

2017-11-10 09:48:32 1609

原创离线安装superset-0.19.1文档

离线安装superset文档shell脚本安装配置mysql数据库yum install gcc gcc-c++ libffi-devel python-devel python-pip python-wheel openssl-devel libsasl2-devel openldap-devel没有

2017-09-28 09:46:12 1887

原创在线安装superset

在线安装superset一、安装依赖包yum upgrade python-setuptools yum install gcc gcc-c++ libffi-devel python-devel python-pip python-wheel openssl-devel libsasl2-devel openldap-devel没有

2017-09-26 14:19:04 719

原创 Linux yum安装MySQL5.7

一、安装配置MySQL的yum源12345678910# 安装MySQL的yum源，下面是RHEL6系列的下载地址rpm -Uvh http://dev.mysql.com/get/mysql-community-release-el6-5.noarch.rpm

2017-08-28 09:40:28 235

转载 Delegation Token

转自：http://yangyoupeng-cn-fujitsu-com.iteye.com/blog/1812164若设置了dfs.block.access.token.enable=true时，启动时的日志中：会有这样两条日志： 2013-02-21 19:59:07,006 INFO org.apache.hadoop.hdfs.server.blockmanagement.B

2017-08-11 16:00:24 614

原创卸载centos7自带的OpenJDK

[root@hadoop]#rpm -qa | grep javajava-1.8.0-openjdk-headless-1.8.0.101-3.b13.el7_2.x86_64javapackages-tools-3.4.1-11.el7.noarchtzdata-java-2016f-1.el7.noarchjava-1.8.0-openjdk-1.8.0.101-3.b13.

2017-08-11 12:27:33 300

原创 Linux如何查看JDK的安装路径

1：echo $JAVA_HOME使用$JAVA_HOME的话能定位JDK的安装路径的前提是配置了环境变量$JAVA_HOME，否则如下所示，根本定位不到JDK的安装路径[root@localhost ~]# java -versionjava version "1.7.0_65"OpenJDK Runtime Environment (rhel-2.5.1.2.e

2017-08-11 11:27:58 226

原创 Linux jdk安装多个版本并进行切换

1. 上传jdk7 和 jdk8 包2. 解压[root@localhost webapps]# tar -zxvf /package/jdk-7u80-linux-x64.tar.gz 3. 配置jdk变量　vi /etc/profileexport JAVA_HOME=/package/jdk1.7.0_80export CLASSPATH=.:$

2017-08-11 11:26:36 334

原创 CentOS 7.0下使用yum安装MySQL

CentOS7默认数据库是mariadb,配置等用着不习惯,因此决定改成mysql,但是CentOS7的yum源中默认好像是没有mysql的。为了解决这个问题，我们要先下载mysql的repo源。1.下载mysql的repo源$ wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm2.安装my

2017-08-11 10:27:32 254

原创 centos7在线安装cloudera manager 5

前期准备：centos71.修改主机名：hostnamectl set-hostname 2.设计系统默认启动级别：设置为多用户状态systemctl set-default multi-user.target设置为图形化启动systemctl set-default graphical.target3.配置hadoop用户sudoer权限vi /etc/su

2017-08-11 08:29:00 696

原创离线安装Cloudera Manager 5和CDH5(最新版5.12.0) 完全教程

关于CDH和Cloudera ManagerCDH (Cloudera's Distribution, including Apache Hadoop)，是Hadoop众多分支中的一种，由Cloudera维护，基于稳定版本的Apache Hadoop构建，并集成了很多补丁，可直接用于生产环境。Cloudera Manager则是为了便于在集群中进行Hadoop等大数据处理相关的服务

2017-08-10 12:44:01 7391

转载堆排序

堆的概念在介绍堆排序之前，首先需要说明一下，堆是个什么玩意儿。堆是一棵顺序存储的完全二叉树。其中每个结点的关键字都不大于其孩子结点的关键字，这样的堆称为小根堆。其中每个结点的关键字都不小于其孩子结点的关键字，这样的堆称为大根堆。举例来说，对于n个元素的序列{R0, R1, ... , Rn}当且仅当满足下列关系之一时，称之为堆：(1) Ri 且 Ri 小根堆)(2) R

2017-07-15 11:37:26 272

转载 Hive性能优化

1.概述　本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。2.介绍　　首先，我们来看看Hadoop的计算框架特性，在此特性下会衍生哪些问题？数据量大不是问题，数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产生十几个jobs，耗时很长。原因是map reduce

2017-07-14 15:14:14 347

原创 ZooKeeper级联删除javaAPI

package cn.ssy.zk.api;import java.util.List;import org.apache.zookeeper.ZooKeeper;public class ZKAPIDemoTest { private static String connectString ="hadoop02:2181"; private static int session

2017-05-18 09:38:48 627

原创 MapReduce三次排序

题目： 20170308,小强,小牛斗地主,22,360手机助手,0.2版本,北京 20170308,小强,小牛斗地主,14,360手机助手,0.3版本,北京 20170308,小强,小牛斗地主,13,360手机助手,0.3版本,北京 20170308,小强,小牛斗地主,16,360手机助手,0.4版本,北京 20170308,小强,小牛斗地主,18,360手机助手,0.4版本,北京

2017-05-07 16:42:59 1013

原创 shell 从输入的参数里找出最大值，最小值，平均值

max=$1min=$2sum=0for i in $@do if [ $max -lt $i ];then max=$i fi if [ $min -gt $i ];then min=$i fi let sum+=idone echo "max:$max" echo "min:$min" echo -n "a

2017-04-21 18:31:39 13554

原创 shell编写倒九九表

#!/bin/bashfor((i=9;i>=1;i--)) do for((j=i;j>=1;j--)) do echo -n -e "$i*$j="$[i*j]"\t" done echo -e "\n"done

2017-04-21 16:56:42 464

原创 javaScript获取当前16位时间及日期

<!DOCTYPE html><html> <head> <meta charset="utf-8" /> <title>显示16位系统时间</title> </head> <body> 当前时间：<span id="showtimes"></span> <script type="text/javascript" >

2017-03-22 20:25:22 2972

转载 JS常用正则表达式

整数或者小数：^[0-9]+\.{0,1}[0-9]{0,2}$只能输入数字："^[0-9]*$"。只能输入n位的数字："^\d{n}$"。只能输入至少n位的数字："^\d{n,}$"。只能输入m~n位的数字：。"^\d{m,n}$"只能输入零和非零开头的数字："^(0|[1-9][0-9]*)$"。只能输入有两位小数的正实数："^[0-9]+(.[0-9]{2})?$"。

2017-03-22 14:31:14 1941

空空如也

空空如也