- 博客(37)
- 资源 (21)
- 收藏
- 关注
原创 hive 如何处理科学计数法
说明:Hive中int , float , double这些数值类型在存储大额度数字时,在前端展现上总是使用科学计数法来表示,这样搞的挺烦。举例说明样例数据:select lte_drop_rate from t_table limit 10;输出结果:5.0E-47.1E-45.41E-4......处理方案:select (case
2015-06-26 17:38:18 13531
原创 Linux下vsftp的安装及配置
首先下载vsftphttp://pkgs.org/download/vsftpd这里下载的版本为:vsftpd-2.2.2-12.el6_5.1.x86_64.rpm1.查看是否安装vsftp rpm -qa | grep vsftpd 如果出现vsftpd-2.0.5-21.el5,说明已经安装 vsftp 安装vsftp yum -y instal
2015-06-26 16:38:02 13326
原创 shell脚本中的数学运算
shell中的赋值和操作默认都是字符串处理,在此记下shell中进行数学运算的几个特殊方法,以后用到的时候可以来看,呵呵1、错误方法举例 a) var=1+1 echo $var 输出的结果是1+1,悲剧,呵呵 b) var=1 var=$var+1 echo $var 输出结果是1+1,依然悲剧,呵呵 2、正确方法 1)使用let
2015-06-24 15:48:12 2320
原创 MapReduce编程之实现多表关联
多表关联和单表关联类似,它也是通过对原始数据进行一定的处理,从其中挖掘出关心的信息。如下输入的是两个文件,一个代表工厂表,包含工厂名列和地址编号列;另一个代表地址表,包含地址名列和地址编号列。要求从输入数据中找出工厂名和地址名的对应关系,输出工厂名-地址名表样本如下:factory:factoryname addressedBeijing Red Star 1Shenzhe
2015-06-23 10:40:12 6543 1
原创 Hadoop集群性能优化一
挺喜欢这句话:“坚持,是基于 你对某件事的热爱,才能有动力坚持下去。在学习的过程中,需要战胜自己的惰性和骄傲!”好了,下面说下如何提升集群的性能: 在硬件方面,第一,商业硬件并不等同于低端硬件。低端机器常常使用便宜的零部件,其故障率远高于更昂贵的机器。当用户管理几十台、上百台甚至几千台机器时,便宜的零部件故障率更高,导致维护成本更高;第二,不推荐使用大型数据库级别的
2015-06-23 09:40:25 3486
原创 hive如何处理多分隔符数据
问题描述: 大数据维稳需求中,客户提供的测试数据为多个字符做分隔符('|#'),在pig中会直接报错,hive中只认第一个分隔符。由于数据量比较大(160G),在文本中替换成单个字符分隔符已不现实,以下提供两个方案解决这一问题。 样例数据110|#警察120|#医院方案1:利用hive自带的序列化/反序列化的方式RegexSe
2015-06-23 09:37:54 6766
原创 hive内置函数大全
======================================一、关系函数1.等值比较:= 语法:A=B操作类型:所有基本类型2.不等值比较: 语法:A 操作类型:所有基本类型3.小于比较: 语法:A操作类型:所有基本类型4.空值判断:IS NULL 语法:a is null操作类型:所有类型5.非
2015-06-23 09:35:25 7548
原创 hive之实现列转行
样例:select * from tab1 limit 10;结果:id numa 1a 2a 3b 4b 3·····现在想实现把id一样的数据在一条数据中展现。结果示例:a 1 2 3b 4 3 实现方案有多种,在Oracle中LISTAGG函数可以满足
2015-06-20 16:50:00 9103 1
原创 MapReduce程序之实现单表关联
设计思路 分析这个实例,显然需要进行单表连接,连接的是左表的parent列和右表的child列,且左表和右表是同一个表。 连接结果中除去连接的两列就是所需要的结果——"grandchild--grandparent"表。要用MapReduce解决这个实例,首先应该考虑如何实现表的自连接;其次就是连接列的设置;最后是结果的整理。 考虑到MapReduc
2015-06-20 16:46:37 1807
原创 hive如何应对数据倾斜
数据倾斜概念:数据倾斜是指,map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完。执行操作: 1
2015-06-20 11:01:42 4420
原创 hive-内部表与外部表的区别
本文以例子的形式介绍一下Hive内表和外表的区别。例子共有4个:不带分区的内表、带分区的内表、不带分区的外表、带分区的外表。1 不带分区的内表#创建表create table innerTable(id int,name string) row format delimited fields terminated by '|';(show tables发现没有innerTabl
2015-06-20 10:58:22 2209
原创 Spark学习笔记之浅释
概述: Spark是一个基于内存计算的开源集群计算系统,目的是让数据分析更加快速。 Spark非常小巧玲珑,由加州伯克利大学AMP实验室的小团队开发。使用的语言是Scala,项目的core部分的代码只有63个Scala文件。(AMP实验室名字有点意思:Algorithm Machine People,算法、机器、人) Spark是一种与Hado
2015-06-20 10:54:28 1011
原创 MapReduce编程之数据去重
数据去重主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。package com.hadoop.mr;import java.io.IOException;import org.apache.hadoop.conf.Config
2015-06-18 15:46:21 1171
原创 系统监控软件Ganglia的安装
1、实验环境 Centos6.42、安装rrdtool(注rrdtool-1.5.3不支持3.6.1)12#安装ganglia相关包yum -y install apr-devel apr-util check-devel cairo-devel pango-devel libxml2-devel rpmbu
2015-06-18 14:44:17 1192
原创 推荐引擎mahout安装与配置
一、硬件环境操作系统:Linux ubuntu-13.04-desktop-i386jdk安装版本:jdk-7u51-linux-i586Hadoop版本:Hadoop-1.1.1(一个Namenode,三个Datanode部署)二、安装步骤在Mahout安装之前读过几篇有关机器学习的文章,面对协同过滤、分类聚类等算法的讲解我是深感无力啊,那么深奥的算法
2015-06-18 14:39:58 1144
原创 Linux、hive、sqoop常用脚本
一、Linux常用脚本1.查看进程 ps -ef|grep -i tom2.SCP从远程复制到本地目录 scp root@/172.19.2.75:/home/root/full.tar.gz /home/daisy/full.tar.gz 3.查看目录 pwd 4.查看hadoop集群状态
2015-06-18 14:17:17 3000
原创 hive UDF自动增长列函数
1.导入Eclipse编码jar包 hadoop-auth-2.4.0.2.1.3.0-563.jar hadoop-common-2.4.0.2.1.3.0-563.jar hive-exec-0.13.0.2.1.3.0-563.jar2.代码import org.apache.hadoop.hive.ql.exec.Descrip
2015-06-18 14:14:56 1332
原创 hadoop2.7完全分布式安装
1、安装JDK1.7+2、SSH互信免登陆3、/etc/profileHADOOP_PREFIX=/opt/hadoopJAVA_HOME=/opt/jdk1.7PATH=$PATH:$JAVA_HOME/bin:$HADOOP_PREFIX/bin:$HADOOP_PREFIX/sbinexport HADOOP_PREFIX PATH JAVA_HOME
2015-06-18 14:11:29 832
原创 Hive控制Reduce个数
1. Hive自己如何确定reduce数:reduce个数的设定极大影响任务执行效率,不指定reduce个数的情况下,Hive会猜测确定一个reduce个数,基于以下两个设定:hive.exec.reducers.bytes.per.reducer(每个reduce任务处理的数据量,默认为1000^3=1G) hive.exec.reducers.max(每个任务最大的reduce
2015-06-15 17:53:29 3241
原创 Scala与JAVA交互
Scala的一个强项在于可以很简单的于已有的Java代码交互,所有java.lang中的类都已经被自动导入了,而其他的类需要显式声明导入。来看看演示代码吧。我们希望对日期进行格式化处理,比如说用法国的格式。Java类库定义了一系列很有用的类,比如Date和DateFormat。由于Scala于Java能够进行很好的交互,我们不需要在Scala类库中实现等效的代码,而只需直接吧Java的相关
2015-06-15 17:34:49 1318
原创 Spark源码解读-JOB的提交与执行
本文以wordCount为例,详细说明spark创建和运行job的过程,重点是在进程及线程的创建。实验环境搭建在进行后续操作前,确保下列条件已满足。1. 下载spark binary 0.9.12. 安装scala3. 安装sbt4. 安装java启动spark-shell单机模式运行,即local模式local模式运行非常简单,只要
2015-06-13 18:39:31 869
原创 JAVA基础学习之多线程
进程与线程进程:就是正在进行的程序。其实就是一个应用程序运行时的内存空间。线程:线程就是进程当中的一个控制单元或执行路径。进程负责空间的标示,而线程负责执行应用程序的执行顺序。当一个进程中出现多个线程是就是多线程。每个线程在栈中都有自己的执行空间、方法区、变量。java VM启动的时候会有一个进程java.exe。该进程中至少有一个线程负责java程序的执行,而且这
2015-06-13 18:36:30 773
翻译 JAVA线程池
文地址:jenkov 作者: Jakob Jenkov 译者:长源 校对:方腾飞java线程池(Thread Pool)对于限制应用程序中同一时刻运行的线程数很有用。因为每启动一个新线程都会有相应的性能开销,每个线程都需要给栈分配一些内存等等。我们可以把并发执行的任务传递给一个线程池,来替代为每个并发执行的任务都启动一个新的线程。只要池里有空闲的线程,任务就会分配给一
2015-06-13 18:34:27 394
原创 正则表达式基础用法
正则表达式:符合一定规则的表达式,用特定符号来表达一些代码。 特点:用于一些特定的符号来表示一些代码操作,这样可以简化书写 作用:专门用于操作字符串。 优点:可以简化对字符串的复杂操作。 缺点:符号定义越多,正则表达式越长,阅读性越差正则表达式的构造摘要1. 字符 \\ 反
2015-06-13 18:30:48 402
原创 HBase Shell的基本用法
hbase提供了一个shell的终端给用户交互。使用命令hbaseshell进入命令界面。通过执行 help可以看到命令的帮助信息。以网上的一个学生成绩表的例子来演示hbase的用法。 name grad course math art
2015-06-12 17:39:01 916
原创 MapReduce编程之倒排索引
任务要求://输入文件格式18661629496 11013107702446 1101234567 1202345678 120987654 1102897839274 18661629496//输出文件格式格式11018661629496|13107702446|987654|18661629496|13107702446
2015-06-12 17:30:15 1538 1
原创 MapReduce编程之WordCount
//mapreduce程序import java.io.IOException;import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.
2015-06-12 16:31:31 892
原创 SSH无密码登陆配置
摘录一在192.168.42.142机器上1)运行:ssh-keygen -t rsa2)然后拍两下回车(均选择默认)3)运行: ssh-copy-id -i /root/.ssh/id_rsa.pub [email protected]或普通用户:ssh-copy-id NAME@IP4)再输入163机器上的root密码
2015-06-12 16:21:09 772
原创 Apache Pig的前世今生
最近,散仙用了几周的Pig来处理分析我们网站搜索的日志数据,感觉用起来很不错,今天就写篇笔记介绍下Pig的由来,除了搞大数据的人,可能很少有人知道Pig是干啥的,包括一些是搞编程的,但不是搞大数据的,还包括一些既不是搞编程的,也不是搞大数据的,而是从事其他行业的朋友,所以很有可能望文生义,一看标题,就乐了,心里就开始默默的翻译了===》 Apache 猪的笔记,看起来Apache的猪,比较厉害
2015-06-12 16:08:14 738
转载 提高Python运行效率的六个窍门
曾灵敏 — MAY 18, 2015 Python是一门优秀的语言,它能让你在短时间内通过极少量代码就能完成许多操作。不仅如此,它还轻松支持多任务处理,比如多进程。不喜欢Python的人经常会吐嘈Python运行太慢。但是,事实并非如此。尝试以下六个窍门,来为你的Python应用提速。窍门一:关键代码使用外部功能包Python简化了许多编程任务,但是对于一些时间敏感的任务,
2015-06-12 08:51:46 472
转载 有关SSL证书的一些事
随着网络安全形势越来越严峻,整个互联网界似乎已经达成了共识:那就是尽一切可能提高网站的安全性。安全技术有很多,其中SSL/TLS非对称加密技术及对应的PKI公钥架构体系又是最重要的技术之一。由于其技术分支较为复杂,这里仅就几个知识点做一下展开,以期帮助读者更好的理解SSL。 术语:SSL、TLS、HTTPS三者,尽管确切含义各不相同,但它们作为非对称加密技术的代表术语,很多语境下都可
2015-06-12 08:46:38 652
原创 关于工资的三个秘密
工资是一个非常直观的参数,所有人都会被它的数字所诱惑,但工资的背后,体现的是你劳动的性价比,是万不可用工资去交换。别小看这三个老套的故事,它能揭开有关工资的秘密。第一个故事一个35岁左右的白骨精来找我们,她需要在两个工作里面做选择。一个是年薪30万的制片总监,一个是年薪10万的市场策划。她喜欢后者的节奏与内容,却被前面的工资吸引。我们仔细算了一下
2015-06-12 08:43:02 803
原创 JVM调优总结
JVM调优工具Jconsole,jProfile,VisualVMJconsole : jdk自带,功能简单,但是可以在系统有一定负荷的情况下使用。对垃圾回收算法有很详细的跟踪。详细说明参考这里 JProfiler:商业软件,需要付费。功能强大。详细说明参考这里 VisualVM:JDK自带,功能强大,与JProfiler类似。推荐。 如何调优观察内存释放情
2015-06-10 17:38:01 613
转载 RAID磁盘阵列
1.RAID(RedundantArray of Inexpensive Disks):容错式廉价磁盘阵列,RAID可以透过硬件或软件技术,将多个较小的磁盘整合成为一个较大的的磁盘装置;使其具有更好的性能。2.RAID-0:等量模式,性能较佳。这种模式如果使用相同型号与容量的磁盘来组成时效果较佳。这种模式将磁盘先切出等量的区块(比如,4K),然后当一个档案要写入RAID时,该档案会依据
2015-06-10 17:29:24 854
原创 初学者如何玩好Linux系统?
我把之前的一些学习经验和方法跟大家分享下,希望对大家有所帮助:一、玩好Linux一定要经常折腾,说白了,就是动手能力一定要强。我初学Linux那块,家里3台电脑,我在上面经常反反复复的做kickstart、网络ghost、双系统安装的实验。有很长一段时间,我还在其中的一台老式笔记本上安装了Ubuntu系统,通过它来游览网页和看视频,解决各种驱动问题,通过这些折腾,对Linux也是越来越
2015-06-10 17:23:48 890
转载 运维角度浅谈Mysql数据库优化
一个成熟的数据库架构并不是一开始设计就具备高可用、高伸缩等特性的,它是随着用户量的增加,基础架构才逐渐完善。这篇博文主要谈MySQL数据库发展周期中所面临的问题及优化方案,暂且抛开前端应用不说,大致分为以下五个阶段:1、数据库表设计 项目立项后,开发部根据产品部需求开发项目,开发工程师工作其中一部分就是对表结构设计。对于数据库来说,这点很重要,如果设计不当,会直接影响访问速度和用
2015-06-10 17:16:49 760
转载 宝宝出现这些突发状况!你会处理吗?
当孩子出现意外事故,家长马上想到的是送医院!其实如果爸爸妈妈们具有救护、自救的知识,能冷静、沉着、迅速地采取急救措施,就能为宝贝的生命争取时间,减少事故对宝贝的伤害。吞食异物 大人坐在椅子上,宝宝俯卧在双腿上,上胸部和头部低垂着,家长用一手固定孩子,另一手有节奏地拍击其两肩胛间的背部,使气道内的阻塞物脱离原位而咳出。必要的时候要进行人工呼吸或心外按摩。划伤 先用清水或稀释
2015-06-09 16:24:38 840
2020年DTCC大会嘉宾分享PDF
2022-06-08
JDK1.6 API
2012-09-13
java 开源 聊天系统
2012-07-04
都市供求信息网
2012-06-26
javascript特效程序
2011-12-18
用户登陆管理系统
2011-12-18
JAVA 代码编辑的贪吃蛇游戏
2011-04-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人