自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 资源 (1)
  • 收藏
  • 关注

原创 纯真IP库

纯真除了免费的社区版IP库外,还提供数据更加准确、服务更加周全的商业版IP地址查询数据。纯真围绕IP地址,基于 网络空间拓扑测绘 + 移动位置大数据 方案,对IP地址定位、IP网络风险、IP使用场景、IP网络类型、秒拨侦测、VPN侦测、代理侦测、爬虫侦测、真人度等均有近20年丰富的数据沉淀。纯真(CZ88.NET)自2005年起一直为广大社区用户提供社区版IP地址库,只要获得纯真的授权就能免费使用,并不断获取后续更新的版本。如果有需要免费版IP库的朋友可以前往纯真的官网进行申请。

2024-07-12 11:09:24 109 1

转载 hive对科学计数法字符串的转换

Hive中int , float , double这些数值类型在存储大额度数字时,在前端展现上总是使用科学计数法来表示,例如:hive> select pow(10,8) from dual;OK1.0E8其实无论是普通的表示方式还是科学计数法表示,只是一个习惯问题,结果都是一样的。可是不能理解的是当把数值类型转化成字符串类型以后Hive竟然把数值转换成了科学计数法表示的字符串而非

2015-11-17 10:38:40 15687 1

原创 kettle连接hive错误

hive运行报错错误连接数据库 [hive] : org.pentaho.di.core.exception.KettleDatabaseException: Error occured while trying to connect to the databaseError connecting to database: (using class org.apache.hadoop.h

2015-11-09 11:33:53 4121

转载 shell 的位置参数

positional parameters 位置参数(positional parameters)指的是 shell 脚本的命令行参数(command line argument),同时也表示 shell 函数的函数参数。位置参数的名称是以单个整数来命名的。出于历史的原因,当这个整数大于 9 时(也就是包含两个或两个以上的阿拉伯数字),就应该使用花括号({})将其括起来。变

2015-11-04 16:48:52 1506

转载 crontab命令的使用

基本格式 : *  *  *  *  *  command 分 时 日 月 周 命令 第1列表示分钟1~59 每分钟用*或者 */1表示 第2列表示小时1~23(0表示0点) 第3列表示日期1~31 第4列表示月份1~12 第5列标识号星期0~6(0表示星期天) 第6列要运行的命令 crontab文件的一些例子: 30 21 * * * /usr/local

2015-11-03 14:58:56 392

原创 Spark RDD的动作

Action:对数据集计算后返回一个数值value给驱动程序RDD支持的动作如下:1、reduce(func):通过函数func(接受两个参数,返回一个参数)聚集数据集中的所有元素。这个功能必须可交换且可关联的,从而可以正确地并行执行。2、collect():在驱动程序中,以数组的形式返回数据集的所有元素。通常在使用filter或者其他操作返回一个足够小的数据子集后再使用会比较

2015-10-26 14:56:14 696

原创 Spark RDD的转换

RDD中的所有转换都是惰性的,只有当发生一个要求返回结果给Driver的动作时,这些转换才会真正运行。默认情况下,每一个转换过的RDD都会在它执行一个动作是被重新计算。可以使用persist(或者cache)方法,在内存中持久化一个RDD,在这种情况下,Spark将会在集群中保存相关元素,下次查询这个RDD时能更快访问它,也支持在磁盘上持久化数据集,或在集群间复制数据集。RDD支持的转换操作:

2015-10-26 11:35:31 1445

原创 CDH4 CM启动NameNode失败的问题,请求超时

今天上班cdh集群出现日志把系统磁盘空间占满的问题,cdh集群宕机,清理掉日志之后使用CM界面无法启动NameNode,提示请求超时,及下面的信息Service did not start successfully; not all of the required roles started: Service hdfs1 does not have sufficient running Nam

2015-09-21 14:06:52 1665

原创 hive删除表失败

删除hive表报错,报错信息如上解决办法: 修改hive数据库编码:mysql> alter database hivedb character set latin1;然后重启hive metastore和hive server就可以了

2015-09-07 11:54:25 2283

原创 Hive Metastore canary创建数据库失败

今天上班时打开CM管理界面,看到Hive Metastore Server 运行状况 不良:查看日志Retrying creating default database after error: Unable to open a test connection to the given database. JDBC url = jdbc:mysql://loca

2015-08-20 10:17:22 19410

转载 解析Cloudera Manager(CDH5)内部结构、功能包括配置文件、目录位置等

问题导读 1.CM的安装目录在什么位置?2.hadoop配置文件在什么位置?3.Cloudera manager运行所需要的信息存在什么位置?4.CM结构和功能是什么? ====================================================1. 相关目录 ? /var/log/cloudera-scm-installer : 安装日

2015-08-10 21:14:40 2767

转载 linux命令行下的ftp 多文件下载和目录下载

目标ftp服务器是一个非标准端口的ftp 1.通过shell登录#ftp    //shell下输入ftp命令,进入到ftp提示符>open IP  PORT   //IP ,PORT对应为服务器的IP和端口号或者直接使用一条语句#ftp  IP  PORT  2.多文件下载(对目录无效)如:下载目录下的所有文件(子目录是无法下载下来的)>mget * 

2015-06-30 10:33:33 726

转载 linux下常用FTP命令 上传下载文件

1. 连接ftp服务器格式:ftp [hostname| ip-address]a)在linux命令行下输入:ftp 192.168.1.1b)服务器询问你用户名和密码,分别输入用户名和相应密码,待认证通过即可。2. 下载文件下载文件通常用get和mget这两条命令。a) get 格式:get [remote-file] [local-fil

2015-06-30 10:31:02 621

原创 MapReduce获取键的分布情况

怎样建立一个一系列分布非常均匀的分区?通过对键空间进行采样,就可较为均匀的划分数据集。采样的核心思想是只查看一小部分键,获得键的近似分布,并由此构建分区。Hadoop已经内置了若干采样器,不需要用户自己编写。InputSampler类实现了Sampler接口,该接口唯一成员方法(getSampler)有两个输入参数(一个InputFormat对象和一个Job对象),返回一系列样本键:public i

2015-06-12 14:20:34 385

原创 Redis3.0集群部署文档(centos系统)

(要让集群正常工作至少需要3个主节点,在这里我们要创建6个redis节点,其中三个为主节点,三个为从节点,对应的redis节点的ip和端口对应关系如下)192.168.1.160:7000192.168.1.160:7001192.168.1.160:7002192.168.1.160:7003192.168.1.160:7004192.168.1.160:70051:下载redis。官网下载3.0

2015-06-12 10:21:24 525

原创 sed命令的基本用法

**sed(stream editor)是流编辑器,可对文本文件和标准输入进行编辑。sed只是对缓存区中的原始文件的副本进行编辑,并不编辑原始的文件,如果需要保存改动内容,可以选择使用重定向和w编辑命令。**调用sed有三种方法:1.在shell命令行输入命令调用sed,格式为: sed [选项] ‘sed命令’ 输入文件2.将sed命令插入脚本文件后,然后通过sed命令调用它,格式为:(不

2015-05-19 16:17:05 478

转载 hive文件存储格式

hive在建表是,可以通过‘STORED AS FILE_FORMAT’ 指定存储文件格式 例如:[plain] view plaincopy 01.> CREATE EXTERNAL TABLE MYTEST(num INT, name STRING) 02.> ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\t’ 03.> STORED AS T

2015-05-03 22:04:05 435

原创 Redis安装

 安装1/到官网下载最新stable版2/解压源码并进入目录      tar -zxvf redis-2.8.19.tar.gz -C ./redis-src/3/ makemake PREFIX=/usr/local/redis install6/拷贝一份配置文件到安装目录下切换到源码目录,里面有一份配置文件 redis.conf,然后将其拷贝到安装

2015-05-03 12:49:03 333

原创 hadoop2.4.1集群环境搭建

1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系 ######注意######如果你们公司是租用的服务器或是使用的云主机(如华为用主机、阿里云主机等) /etc/hosts里面要配置的是内网IP地址和主机名的映射关系 4.关闭防火墙5.ssh免登陆 6.安装JDK,配置环境变量等集群规划: 主机名  IP    安装的软件     运行

2015-05-01 19:21:05 408

转载 awk命令详解

简介awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk,gawk 是 AWK 的 GNU 版本。awk其名称得自于它的创始人 Alfr

2015-03-22 22:21:22 356

转载 hadoop2 hdfs命令

Hadoop2 HDFS shell命令 1. hdfs dfs -appendToFile ...  可同时上传多个文件到HDFS里面 2.  hdfs dfs -cat URI [URI ...] 查看文件内容 3. hdfs dfs -chgrp [-R] GROUP URI [URI ...] 修改文件所属组 4.  hdfs df

2015-02-18 15:15:51 641

原创 MapReduce2.0原理,基本架构面试相关

一、MapReduce基本概念的理解1、HDFS block和MapReduce split之间的联系?两者之间是否存在严格的对应关系?答:Block:HDFS中最小的数据存储单位,默认是64M;Split:MapReduce中最小的计算单元,默认与Block一一对应。两者的对应关系是任意的,可有用户控制。2、假设HDFS的block大小为64M,采用TextInputFormat

2015-02-18 12:28:04 1145

转载 Hadoop2.6.0在Ubuntu Kylin14.04上的配置

环境:  系统:Ubuntu Kylin 14.04LTS版本(不得不说,相比原始的系统,这个中国定制版麒麟实在是好看和好用多了)       Hadoop 2.6.0     jdk1.8.0_25步骤:  1. 创建Hadoop用户  创建用户1sudo useradd hadoop

2015-02-17 17:53:18 427

转载 Java设计模式--工厂模式

一、工厂模式的简介: 工厂模式的作用:为创建对象提供过渡接口,以便将创建对象的具体过程屏蔽起来,达到提高灵活性的目的。 工厂模式分类: 1)简单工厂模式(Simple Factory):不利于产生系列产品 2)工厂方法模式(Factory Method):又称为多形性工厂; 3)抽象工厂模式(Abstract Factory):又称为工具箱,产生产品族,但不利于产生新的

2015-01-28 10:05:35 383

VC++课程编程题

关 于 vc++ 课程 设计的一些题目

2013-06-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除