- 博客(60)
- 收藏
- 关注
原创 CentOS下MySQL忘记root密码解决方法
1.首先确认服务器出于安全的状态,也就是没有人能够任意地连接MySQL数据库。因为在重新设置MySQL的root密码的期间,MySQL数据库完全出于没有密码保护的状态下,其他的用户也可以任意地登录和修改MySQL的信息。可以采用将MySQL对外的端口封闭,并且停止Apache以及所有的用户进程的方法实现服务器的准安全状态。最安全的状态是到服务器的Console上面操作,并且拔掉网线。2...
2018-07-27 10:34:46 261
原创 用mapreduce写wordcount
import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.a...
2018-04-09 11:06:19 301
原创 mapreduce针对n列orc文件的读写
建300列的ORC表,可以用execl简单建一个300列,10000行的数据,复制成以tab分割的txt文件 hdfs dfs -put ddd.txt hdfs://hadoop:9000/tmp/input/create table test_orc_300(c1 string , c2 string , c3 string , c4 str...
2018-04-09 11:02:40 920
原创 The auxService:mapreduce_shuffle does not exist问题解决
调试mapreduce发现问题Container launch failed for container_1522728182746_0001_01_000004 : org.apache.hadoop.yarn.exceptions.InvalidAuxServiceException: The auxService:mapreduce_shuffle does not exist ...
2018-04-03 12:15:16 2139 1
转载 hive优化十大原则
hive之于数据民工,就如同锄头之于农民伯伯。hive用的好,才能从地里(数据库)里挖出更多的数据来。用过hive的朋友,我想或多或少都有类似的经历:一天下来,没跑几次hive,就到下班时间了。hive在极大数据或者数据不平衡等情况下,表现往往一般,因此也出现了presto、spark-sql等替代品。今天不谈其它,就来说说关于hive,个人的一点心得。一. 表连接优化 将大表放...
2018-03-27 10:15:02 367
转载 map和reduce 个数的设定 (Hive优化)经典
一、 控制hive任务中的map数: 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);举例: a) 假设input目录下有1个文件a,大小为780M,那么...
2018-03-14 15:53:11 313
原创 Pycharm破解方法注册码
方法一: 【step 1】双击桌面,打开安装好的软件图标: 【step 2】在弹出的界面中输入:在激活界面的License server输入:http://idea.liyang.io方法二:【step 1】在浏览器中输入:http://idea.lanyus.com/打开如下页面:点击获得注册码【step 2】无需修改用户名,点击获取注册码。复制该注册码,粘贴在注册界面的Activation
2018-03-07 14:42:15 728
转载 pycharm无法显示matplotlib绘图问题
最近开始接触matplotlib,1.首先安装matplotlib库和其依赖的一些其他库,例如:numpy,scipy和pandas等2.开始进行简单的编码工作,并在PyCharm中运行,出现如下错误:Traceback (most recent call last): File "J:/MyGit/pythonTest/GetTegeather/test06.py", lin...
2018-03-07 14:36:01 1716
转载 IntelliJ IDEA 2017.2.5 破解过程[详细步骤](Mac OS & Windows)
> 破解步骤1.首先进入https://www.jetbrains.com官网进行下载。本人下载版本版本信息:Version: 2017.2.5Build: 172.4343.14Released: September 26, 2017注意:近期收到评论,官网更新有变化,由于本人尚未在最新的2017.3版本中进行破解,为了保证能按本文章流程正常破解,这里建议下载与本文章使用的版本2
2018-01-11 16:28:12 49044
原创 shell脚本实现离线自动化安装superset2.0
#!/bin/bashNUM=$#MYSQL_HOST=$1MYSQL_USER="root"MYSQL_PASSWORD="root"MYSQL_USER_S="superset"MYSQL_PASSWORD_S="superset"SUPERSET_INSTALL="/tmp"PIP_INSTALL="/tmp/pip-devel"SUPERSET_HOME="/opt/ven
2017-12-04 16:34:55 1169
转载 linux sed命令详解
简介sed 是一种在线编辑器,它一次处理一行内容。处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space),接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。接着处理下一行,这样不断重复,直到文件末尾。文件内容并没有 改变,除非你使用重定向存储输出。Sed主要用来自动编辑一个或多个文件;简化对文件的反复操作;编写转换程序等。
2017-11-10 10:27:45 441
原创 linux awk命令详解
简介awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk,gawk 是 AWK 的 GNU 版本。awk其名称得自于它的创始人 Alfr
2017-11-10 10:25:32 307
转载 Linux netstat命令详解
转载:https://www.cnblogs.com/ggjucheng/archive/2012/01/08/2316661.html简介Netstat 命令用于显示各种网络相关信息,如网络连接,路由表,接口状态 (Interface Statistics),masquerade 连接,多播成员 (Multicast Memberships) 等等。输出信息含义执
2017-11-10 10:21:38 367
转载 使用teragen产生数据
转载地址:http://www.opstool.com/article/249使用Teragen来产生数据,示例如下:hadoop jar hadoop-*-examples.jar teragen 参数1 参数2teragen的参数解释:参数1:表示要产生的数据的行数。Teragen每行数据的大小是100B。要产生1T的数据,需要的行数=102410241024*
2017-11-10 10:03:58 2765
转载 hdfs fsck命令查看HDFS文件对应的文件块信息(Block)和位置信息
在HDFS中,提供了fsck命令,用于检查HDFS上文件和目录的健康状态、获取文件的block信息和位置信息等。fsck命令必须由HDFS超级用户来执行,普通用户无权限。
2017-11-10 09:48:32 1609
原创 离线安装superset-0.19.1文档
离线安装superset文档shell脚本安装配置mysql数据库yum install gcc gcc-c++ libffi-devel python-devel python-pip python-wheel openssl-devel libsasl2-devel openldap-devel没有
2017-09-28 09:46:12 1887
原创 在线安装superset
在线安装superset一、 安装依赖包yum upgrade python-setuptools yum install gcc gcc-c++ libffi-devel python-devel python-pip python-wheel openssl-devel libsasl2-devel openldap-devel没有
2017-09-26 14:19:04 719
原创 Linux yum安装MySQL5.7
一、安装配置MySQL的yum源12345678910# 安装MySQL的yum源,下面是RHEL6系列的下载地址rpm -Uvh http://dev.mysql.com/get/mysql-community-release-el6-5.noarch.rpm
2017-08-28 09:40:28 235
转载 Delegation Token
转自:http://yangyoupeng-cn-fujitsu-com.iteye.com/blog/1812164若设置了dfs.block.access.token.enable=true时,启动时的日志中: 会有这样两条日志: 2013-02-21 19:59:07,006 INFO org.apache.hadoop.hdfs.server.blockmanagement.B
2017-08-11 16:00:24 614
原创 卸载centos7自带的OpenJDK
[root@hadoop]#rpm -qa | grep javajava-1.8.0-openjdk-headless-1.8.0.101-3.b13.el7_2.x86_64javapackages-tools-3.4.1-11.el7.noarchtzdata-java-2016f-1.el7.noarchjava-1.8.0-openjdk-1.8.0.101-3.b13.
2017-08-11 12:27:33 300
原创 Linux如何查看JDK的安装路径
1:echo $JAVA_HOME使用$JAVA_HOME的话能定位JDK的安装路径的前提是配置了环境变量$JAVA_HOME,否则如下所示,根本定位不到JDK的安装路径[root@localhost ~]# java -versionjava version "1.7.0_65"OpenJDK Runtime Environment (rhel-2.5.1.2.e
2017-08-11 11:27:58 226
原创 Linux jdk安装多个版本并进行切换
1. 上传jdk7 和 jdk8 包2. 解压[root@localhost webapps]# tar -zxvf /package/jdk-7u80-linux-x64.tar.gz 3. 配置jdk变量 vi /etc/profileexport JAVA_HOME=/package/jdk1.7.0_80export CLASSPATH=.:$
2017-08-11 11:26:36 334
原创 CentOS 7.0下使用yum安装MySQL
CentOS7默认数据库是mariadb,配置等用着不习惯,因此决定改成mysql,但是CentOS7的yum源中默认好像是没有mysql的。为了解决这个问题,我们要先下载mysql的repo源。1.下载mysql的repo源$ wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm2.安装my
2017-08-11 10:27:32 254
原创 centos7在线安装cloudera manager 5
前期准备:centos71.修改主机名:hostnamectl set-hostname 2.设计系统默认启动级别:设置为多用户状态systemctl set-default multi-user.target设置为图形化启动systemctl set-default graphical.target3.配置hadoop用户sudoer权限vi /etc/su
2017-08-11 08:29:00 696
原创 离线安装Cloudera Manager 5和CDH5(最新版5.12.0) 完全教程
关于CDH和Cloudera ManagerCDH (Cloudera's Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境。Cloudera Manager则是为了便于在集群中进行Hadoop等大数据处理相关的服务
2017-08-10 12:44:01 7391
转载 堆排序
堆的概念在介绍堆排序之前,首先需要说明一下,堆是个什么玩意儿。堆是一棵顺序存储的完全二叉树。其中每个结点的关键字都不大于其孩子结点的关键字,这样的堆称为小根堆。其中每个结点的关键字都不小于其孩子结点的关键字,这样的堆称为大根堆。举例来说,对于n个元素的序列{R0, R1, ... , Rn}当且仅当满足下列关系之一时,称之为堆:(1) Ri 且 Ri 小根堆)(2) R
2017-07-15 11:37:26 272
转载 Hive性能优化
1.概述 本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。2.介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce
2017-07-14 15:14:14 347
原创 ZooKeeper级联删除javaAPI
package cn.ssy.zk.api;import java.util.List;import org.apache.zookeeper.ZooKeeper;public class ZKAPIDemoTest { private static String connectString ="hadoop02:2181"; private static int session
2017-05-18 09:38:48 627
原创 MapReduce三次排序
题目: 20170308,小强,小牛斗地主,22,360手机助手,0.2版本,北京 20170308,小强,小牛斗地主,14,360手机助手,0.3版本,北京 20170308,小强,小牛斗地主,13,360手机助手,0.3版本,北京 20170308,小强,小牛斗地主,16,360手机助手,0.4版本,北京 20170308,小强,小牛斗地主,18,360手机助手,0.4版本,北京
2017-05-07 16:42:59 1013
原创 shell 从输入的参数里找出最大值,最小值,平均值
max=$1min=$2sum=0for i in $@do if [ $max -lt $i ];then max=$i fi if [ $min -gt $i ];then min=$i fi let sum+=idone echo "max:$max" echo "min:$min" echo -n "a
2017-04-21 18:31:39 13554
原创 shell编写倒九九表
#!/bin/bashfor((i=9;i>=1;i--)) do for((j=i;j>=1;j--)) do echo -n -e "$i*$j="$[i*j]"\t" done echo -e "\n"done
2017-04-21 16:56:42 464
原创 javaScript获取当前16位时间及日期
<!DOCTYPE html><html> <head> <meta charset="utf-8" /> <title>显示16位系统时间</title> </head> <body> 当前时间:<span id="showtimes"></span> <script type="text/javascript" >
2017-03-22 20:25:22 2972
转载 JS常用正则表达式
整数或者小数:^[0-9]+\.{0,1}[0-9]{0,2}$只能输入数字:"^[0-9]*$"。只能输入n位的数字:"^\d{n}$"。只能输入至少n位的数字:"^\d{n,}$"。只能输入m~n位的数字:。"^\d{m,n}$"只能输入零和非零开头的数字:"^(0|[1-9][0-9]*)$"。只能输入有两位小数的正实数:"^[0-9]+(.[0-9]{2})?$"。
2017-03-22 14:31:14 1941
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人