自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(37)
  • 资源 (21)
  • 收藏
  • 关注

原创 hive 如何处理科学计数法

说明:Hive中int , float , double这些数值类型在存储大额度数字时,在前端展现上总是使用科学计数法来表示,这样搞的挺烦。举例说明样例数据:select lte_drop_rate from t_table limit 10;输出结果:5.0E-47.1E-45.41E-4......处理方案:select (case 

2015-06-26 17:38:18 13531

原创 Linux下vsftp的安装及配置

首先下载vsftphttp://pkgs.org/download/vsftpd这里下载的版本为:vsftpd-2.2.2-12.el6_5.1.x86_64.rpm1.查看是否安装vsftp rpm -qa | grep vsftpd 如果出现vsftpd-2.0.5-21.el5,说明已经安装 vsftp  安装vsftp yum -y instal

2015-06-26 16:38:02 13326

原创 shell脚本中的数学运算

shell中的赋值和操作默认都是字符串处理,在此记下shell中进行数学运算的几个特殊方法,以后用到的时候可以来看,呵呵1、错误方法举例 a) var=1+1 echo $var 输出的结果是1+1,悲剧,呵呵 b) var=1 var=$var+1 echo $var 输出结果是1+1,依然悲剧,呵呵 2、正确方法 1)使用let

2015-06-24 15:48:12 2320

原创 MapReduce编程之实现多表关联

多表关联和单表关联类似,它也是通过对原始数据进行一定的处理,从其中挖掘出关心的信息。如下输入的是两个文件,一个代表工厂表,包含工厂名列和地址编号列;另一个代表地址表,包含地址名列和地址编号列。要求从输入数据中找出工厂名和地址名的对应关系,输出工厂名-地址名表样本如下:factory:factoryname addressedBeijing Red Star 1Shenzhe

2015-06-23 10:40:12 6543 1

原创 Hadoop集群性能优化一

挺喜欢这句话:“坚持,是基于 你对某件事的热爱,才能有动力坚持下去。在学习的过程中,需要战胜自己的惰性和骄傲!”好了,下面说下如何提升集群的性能:   在硬件方面,第一,商业硬件并不等同于低端硬件。低端机器常常使用便宜的零部件,其故障率远高于更昂贵的机器。当用户管理几十台、上百台甚至几千台机器时,便宜的零部件故障率更高,导致维护成本更高;第二,不推荐使用大型数据库级别的

2015-06-23 09:40:25 3486

原创 hive如何处理多分隔符数据

问题描述:    大数据维稳需求中,客户提供的测试数据为多个字符做分隔符('|#'),在pig中会直接报错,hive中只认第一个分隔符。由于数据量比较大(160G),在文本中替换成单个字符分隔符已不现实,以下提供两个方案解决这一问题。 样例数据110|#警察120|#医院方案1:利用hive自带的序列化/反序列化的方式RegexSe 

2015-06-23 09:37:54 6766

原创 hive内置函数大全

======================================一、关系函数1.等值比较:=    语法:A=B操作类型:所有基本类型2.不等值比较:    语法:A    操作类型:所有基本类型3.小于比较:    语法:A操作类型:所有基本类型4.空值判断:IS NULL    语法:a is null操作类型:所有类型5.非

2015-06-23 09:35:25 7548

原创 hive之实现列转行

样例:select * from tab1 limit 10;结果:id  numa  1a  2a  3b  4b  3·····现在想实现把id一样的数据在一条数据中展现。结果示例:a  1  2  3b  4  3 实现方案有多种,在Oracle中LISTAGG函数可以满足

2015-06-20 16:50:00 9103 1

原创 MapReduce程序之实现单表关联

设计思路       分析这个实例,显然需要进行单表连接,连接的是左表的parent列和右表的child列,且左表和右表是同一个表。  连接结果中除去连接的两列就是所需要的结果——"grandchild--grandparent"表。要用MapReduce解决这个实例,首先应该考虑如何实现表的自连接;其次就是连接列的设置;最后是结果的整理。      考虑到MapReduc

2015-06-20 16:46:37 1807

原创 hive如何应对数据倾斜

数据倾斜概念:数据倾斜是指,map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完。执行操作:  1

2015-06-20 11:01:42 4420

原创 hive-内部表与外部表的区别

本文以例子的形式介绍一下Hive内表和外表的区别。例子共有4个:不带分区的内表、带分区的内表、不带分区的外表、带分区的外表。1 不带分区的内表#创建表create table innerTable(id int,name string) row format delimited fields terminated by '|';(show tables发现没有innerTabl

2015-06-20 10:58:22 2209

原创 Spark学习笔记之浅释

概述:    Spark是一个基于内存计算的开源集群计算系统,目的是让数据分析更加快速。    Spark非常小巧玲珑,由加州伯克利大学AMP实验室的小团队开发。使用的语言是Scala,项目的core部分的代码只有63个Scala文件。(AMP实验室名字有点意思:Algorithm Machine People,算法、机器、人)    Spark是一种与Hado

2015-06-20 10:54:28 1011

原创 MapReduce编程之数据去重

数据去重主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。package com.hadoop.mr;import java.io.IOException;import org.apache.hadoop.conf.Config

2015-06-18 15:46:21 1171

原创 系统监控软件Ganglia的安装

1、实验环境    Centos6.42、安装rrdtool(注rrdtool-1.5.3不支持3.6.1)12#安装ganglia相关包yum -y install apr-devel apr-util check-devel cairo-devel pango-devel libxml2-devel rpmbu

2015-06-18 14:44:17 1192

原创 推荐引擎mahout安装与配置

一、硬件环境操作系统:Linux ubuntu-13.04-desktop-i386jdk安装版本:jdk-7u51-linux-i586Hadoop版本:Hadoop-1.1.1(一个Namenode,三个Datanode部署)二、安装步骤在Mahout安装之前读过几篇有关机器学习的文章,面对协同过滤、分类聚类等算法的讲解我是深感无力啊,那么深奥的算法

2015-06-18 14:39:58 1144

原创 Linux、hive、sqoop常用脚本

一、Linux常用脚本1.查看进程  ps -ef|grep -i tom2.SCP从远程复制到本地目录  scp root@/172.19.2.75:/home/root/full.tar.gz /home/daisy/full.tar.gz  3.查看目录  pwd 4.查看hadoop集群状态

2015-06-18 14:17:17 3000

原创 hive UDF自动增长列函数

1.导入Eclipse编码jar包    hadoop-auth-2.4.0.2.1.3.0-563.jar    hadoop-common-2.4.0.2.1.3.0-563.jar    hive-exec-0.13.0.2.1.3.0-563.jar2.代码import org.apache.hadoop.hive.ql.exec.Descrip

2015-06-18 14:14:56 1332

原创 hadoop2.7完全分布式安装

1、安装JDK1.7+2、SSH互信免登陆3、/etc/profileHADOOP_PREFIX=/opt/hadoopJAVA_HOME=/opt/jdk1.7PATH=$PATH:$JAVA_HOME/bin:$HADOOP_PREFIX/bin:$HADOOP_PREFIX/sbinexport HADOOP_PREFIX PATH JAVA_HOME

2015-06-18 14:11:29 832

原创 Hive控制Reduce个数

1. Hive自己如何确定reduce数:reduce个数的设定极大影响任务执行效率,不指定reduce个数的情况下,Hive会猜测确定一个reduce个数,基于以下两个设定:hive.exec.reducers.bytes.per.reducer(每个reduce任务处理的数据量,默认为1000^3=1G) hive.exec.reducers.max(每个任务最大的reduce

2015-06-15 17:53:29 3241

原创 Scala与JAVA交互

Scala的一个强项在于可以很简单的于已有的Java代码交互,所有java.lang中的类都已经被自动导入了,而其他的类需要显式声明导入。来看看演示代码吧。我们希望对日期进行格式化处理,比如说用法国的格式。Java类库定义了一系列很有用的类,比如Date和DateFormat。由于Scala于Java能够进行很好的交互,我们不需要在Scala类库中实现等效的代码,而只需直接吧Java的相关

2015-06-15 17:34:49 1318

原创 Spark源码解读-JOB的提交与执行

本文以wordCount为例,详细说明spark创建和运行job的过程,重点是在进程及线程的创建。实验环境搭建在进行后续操作前,确保下列条件已满足。1. 下载spark binary 0.9.12. 安装scala3. 安装sbt4. 安装java启动spark-shell单机模式运行,即local模式local模式运行非常简单,只要

2015-06-13 18:39:31 869

原创 JAVA基础学习之多线程

进程与线程进程:就是正在进行的程序。其实就是一个应用程序运行时的内存空间。线程:线程就是进程当中的一个控制单元或执行路径。进程负责空间的标示,而线程负责执行应用程序的执行顺序。当一个进程中出现多个线程是就是多线程。每个线程在栈中都有自己的执行空间、方法区、变量。java VM启动的时候会有一个进程java.exe。该进程中至少有一个线程负责java程序的执行,而且这

2015-06-13 18:36:30 773

翻译 JAVA线程池

文地址:jenkov  作者: Jakob Jenkov  译者:长源  校对:方腾飞java线程池(Thread Pool)对于限制应用程序中同一时刻运行的线程数很有用。因为每启动一个新线程都会有相应的性能开销,每个线程都需要给栈分配一些内存等等。我们可以把并发执行的任务传递给一个线程池,来替代为每个并发执行的任务都启动一个新的线程。只要池里有空闲的线程,任务就会分配给一

2015-06-13 18:34:27 394

原创 正则表达式基础用法

正则表达式:符合一定规则的表达式,用特定符号来表达一些代码。    特点:用于一些特定的符号来表示一些代码操作,这样可以简化书写    作用:专门用于操作字符串。    优点:可以简化对字符串的复杂操作。    缺点:符号定义越多,正则表达式越长,阅读性越差正则表达式的构造摘要1. 字符        \\                 反

2015-06-13 18:30:48 402

原创 HBase Shell的基本用法

hbase提供了一个shell的终端给用户交互。使用命令hbaseshell进入命令界面。通过执行 help可以看到命令的帮助信息。以网上的一个学生成绩表的例子来演示hbase的用法。  name    grad    course    math    art  

2015-06-12 17:39:01 916

原创 MapReduce编程之倒排索引

任务要求://输入文件格式18661629496 11013107702446 1101234567 1202345678 120987654 1102897839274 18661629496//输出文件格式格式11018661629496|13107702446|987654|18661629496|13107702446

2015-06-12 17:30:15 1538 1

原创 MapReduce编程之WordCount

//mapreduce程序import java.io.IOException;import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.

2015-06-12 16:31:31 892

原创 SSH无密码登陆配置

摘录一在192.168.42.142机器上1)运行:ssh-keygen -t rsa2)然后拍两下回车(均选择默认)3)运行: ssh-copy-id -i /root/.ssh/id_rsa.pub [email protected]或普通用户:ssh-copy-id NAME@IP4)再输入163机器上的root密码

2015-06-12 16:21:09 772

原创 Apache Pig的前世今生

最近,散仙用了几周的Pig来处理分析我们网站搜索的日志数据,感觉用起来很不错,今天就写篇笔记介绍下Pig的由来,除了搞大数据的人,可能很少有人知道Pig是干啥的,包括一些是搞编程的,但不是搞大数据的,还包括一些既不是搞编程的,也不是搞大数据的,而是从事其他行业的朋友,所以很有可能望文生义,一看标题,就乐了,心里就开始默默的翻译了===》 Apache 猪的笔记,看起来Apache的猪,比较厉害

2015-06-12 16:08:14 738

转载 提高Python运行效率的六个窍门

曾灵敏 — MAY 18, 2015 Python是一门优秀的语言,它能让你在短时间内通过极少量代码就能完成许多操作。不仅如此,它还轻松支持多任务处理,比如多进程。不喜欢Python的人经常会吐嘈Python运行太慢。但是,事实并非如此。尝试以下六个窍门,来为你的Python应用提速。窍门一:关键代码使用外部功能包Python简化了许多编程任务,但是对于一些时间敏感的任务,

2015-06-12 08:51:46 472

转载 有关SSL证书的一些事

随着网络安全形势越来越严峻,整个互联网界似乎已经达成了共识:那就是尽一切可能提高网站的安全性。安全技术有很多,其中SSL/TLS非对称加密技术及对应的PKI公钥架构体系又是最重要的技术之一。由于其技术分支较为复杂,这里仅就几个知识点做一下展开,以期帮助读者更好的理解SSL。    术语:SSL、TLS、HTTPS三者,尽管确切含义各不相同,但它们作为非对称加密技术的代表术语,很多语境下都可

2015-06-12 08:46:38 652

原创 关于工资的三个秘密

工资是一个非常直观的参数,所有人都会被它的数字所诱惑,但工资的背后,体现的是你劳动的性价比,是万不可用工资去交换。别小看这三个老套的故事,它能揭开有关工资的秘密。第一个故事一个35岁左右的白骨精来找我们,她需要在两个工作里面做选择。一个是年薪30万的制片总监,一个是年薪10万的市场策划。她喜欢后者的节奏与内容,却被前面的工资吸引。我们仔细算了一下

2015-06-12 08:43:02 803

原创 JVM调优总结

JVM调优工具Jconsole,jProfile,VisualVMJconsole : jdk自带,功能简单,但是可以在系统有一定负荷的情况下使用。对垃圾回收算法有很详细的跟踪。详细说明参考这里 JProfiler:商业软件,需要付费。功能强大。详细说明参考这里 VisualVM:JDK自带,功能强大,与JProfiler类似。推荐。 如何调优观察内存释放情

2015-06-10 17:38:01 613

转载 RAID磁盘阵列

1.RAID(RedundantArray of Inexpensive Disks):容错式廉价磁盘阵列,RAID可以透过硬件或软件技术,将多个较小的磁盘整合成为一个较大的的磁盘装置;使其具有更好的性能。2.RAID-0:等量模式,性能较佳。这种模式如果使用相同型号与容量的磁盘来组成时效果较佳。这种模式将磁盘先切出等量的区块(比如,4K),然后当一个档案要写入RAID时,该档案会依据

2015-06-10 17:29:24 854

原创 初学者如何玩好Linux系统?

我把之前的一些学习经验和方法跟大家分享下,希望对大家有所帮助:一、玩好Linux一定要经常折腾,说白了,就是动手能力一定要强。我初学Linux那块,家里3台电脑,我在上面经常反反复复的做kickstart、网络ghost、双系统安装的实验。有很长一段时间,我还在其中的一台老式笔记本上安装了Ubuntu系统,通过它来游览网页和看视频,解决各种驱动问题,通过这些折腾,对Linux也是越来越

2015-06-10 17:23:48 890

转载 运维角度浅谈Mysql数据库优化

一个成熟的数据库架构并不是一开始设计就具备高可用、高伸缩等特性的,它是随着用户量的增加,基础架构才逐渐完善。这篇博文主要谈MySQL数据库发展周期中所面临的问题及优化方案,暂且抛开前端应用不说,大致分为以下五个阶段:1、数据库表设计  项目立项后,开发部根据产品部需求开发项目,开发工程师工作其中一部分就是对表结构设计。对于数据库来说,这点很重要,如果设计不当,会直接影响访问速度和用

2015-06-10 17:16:49 760

转载 宝宝出现这些突发状况!你会处理吗?

当孩子出现意外事故,家长马上想到的是送医院!其实如果爸爸妈妈们具有救护、自救的知识,能冷静、沉着、迅速地采取急救措施,就能为宝贝的生命争取时间,减少事故对宝贝的伤害。吞食异物  大人坐在椅子上,宝宝俯卧在双腿上,上胸部和头部低垂着,家长用一手固定孩子,另一手有节奏地拍击其两肩胛间的背部,使气道内的阻塞物脱离原位而咳出。必要的时候要进行人工呼吸或心外按摩。划伤   先用清水或稀释

2015-06-09 16:24:38 840

2020年DTCC大会嘉宾分享PDF

2020年数据库技术大会嘉宾分享主题PDF,包括工商银行核心业务MySQL实践、华为云数据库GaussDB、企业级云端数据仓库的架构与实践、元数据治理在企业中的实现等,满满干货。

2022-06-08

2021年DTCC大会分享PDF

2021年DTCC大会三天嘉宾分享主题PDF材料,包含云原生数据库的开发实践、分布式数据库的应用、图数据库技术应用创新、时序数据库等多个主题。

2022-06-08

java编码规范

喜欢java的朋友,但是对编码规范又不是很了解的话那就赶快下载吧!严格要求自己,对自己好一点,编码规范一点。

2012-09-24

JDK1.6 API

JAVA 方面的最新的API,在学习JAVA 的过程当中,难免会遇见各种不知道,没关系,现在咱们有了这个API 帮您弥补各种遗憾。 哈哈! 大家好才是真的好,一起努力吧!

2012-09-13

开发高效的hive程序

关于hive方面的更高效的开发,个人觉得还算不错,大家好才是真的好,努力吧,骚年! 一起加油哦

2012-09-13

Hadoop-1.0.3API.chm

Hadoop 的API 最新的,你懂得!大家好才是真的好,一起进步。 努力吧,骚年!

2012-08-27

java 开源 聊天系统

好东西当然要大家一起分享,聊天室的基本功能就是聊天,其他的功能都是对基本功能的强化,本系统主要采用JSP+Ajax 等技术完成,绝对开源,谢谢分享,受用的话还望能顶一下哈,大家一起进步... 嘿嘿!

2012-07-04

数据库常用命令

数据库常用的命令大全,非常的有 帮助,保证您不会后悔,谢谢合作! 求共同进步.

2012-06-26

都市供求信息网

都市供求信息网主要用来为用户提供信息服务,应尽可能多地提供各类信息,例如求职、招聘、培训、房屋、车辆、出售、求购等信息。 该系统采用JAVA、JSP 技术 编辑 绝对开源 系统 结合STRUTS 2.0 框架技术等,谢谢合作! 您的进步就是我的快乐

2012-06-26

数据结构课程设计之迷宫问题

用C++ 语言编辑的迷宫问题的详解! 里面还有运行的大概的效果.. 仅供参考! 谢谢... 求进步!

2011-12-29

javascript特效程序

该资源主要由JavaScript实现的一些简单网页里面的特效,例如下雪、计算器、360° 菜单旋转鼠标移动、时钟等的特效!对于初级学习网页学习JavaScript的用户可谓是大大滴有用哦!就算是过来人,我建议也不妨下载下看下效果欣赏下下... 灰常感谢!合作愉快... 共同进步!

2011-12-18

用户登陆管理系统

用户登陆模块在网站中的应用是十分广泛滴,这个用户登陆系统采用Model2(JSP+Servlet+JavaBean)的开发模式,以MVC的设计里面采用Struts框架,尽管不是灰常滴完整,但是构架绝对清晰,项目绝对开源,里面包含有数据库,建议用户下载以后用MYsql 然后再用管理工具把里面的数据库导入进去就OK 啦! 灰常滴感谢.. 欢迎下载!! 共同进步..

2011-12-18

操作系统课程设计(进程调度系统)

操作系统之课程软件设计,该系统为进程调度系统,具体的操作流程在里面有一个word文档可以参考。 共同进步!Thank you!

2011-12-16

VC++编辑的多进程之间的通信

多进程之间的相互通信!VC++ 编辑的源代码文件...多参考,求进步!Thank you!

2011-12-07

BBS论坛绝对开源

由java以及JSP等开源技术编辑的BBs论坛系统,可以作为学习的参考资料同时还可以作为论坛的基点! 绝对的开源... 没问题! 共同交流,求进步!

2011-11-30

Java 开源用户管理系统

java代码编辑的开源用户管理系统,对于初学者或者有一定的资历的学者来说都不失为一次充电的机会!

2011-11-23

java 简易打地鼠游戏

一款确实有用的东东!! 好东西就是要大家一起分享! 有你分享,我更快乐!

2011-04-17

JAVA 代码编辑的贪吃蛇游戏

这是一个关于java代码编辑的贪吃蛇小游戏!! 无聊的时候可以玩一下子,不过我认为更重要的是,可以根据代码自己再修改修改,还可以学到东东!! 祝你好运!

2011-04-17

java代码编写的随机抽奖小游戏

是一个关于抽奖的代码!!希望对大家有用!! 抽奖还是挺有意思的.... 呵呵! 里面还有代码详解,个人感觉真的还不错!

2011-04-17

2008年PC技术真题

2008年计算机全国三级考试pc技术试题 好的东西当然是 要和大家一起分享才更快乐

2011-04-08

清华大学 java编程代码

希望对大家有用......... 不,肯定对那些想雪java的人有用的。。。。

2011-04-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除