- 博客(15)
- 资源 (2)
- 收藏
- 关注
原创 mongoDB的导出工具mongoexport
据了解当前mongoDB支持将数据导成两种形式,一是json 二是csv可以通过./mongoexport --help 来查看参数介绍-h [ --host ] arg 连接的ip地址--port arg 端口号-u [ --username ] arg 用户名-p [ --password ] arg 密码-d [ --db
2013-10-29 16:02:24 1818
原创 java连接mongoDB
如果没有jar驱动包的先到以下连接下载驱动包。http://download.csdn.net/detail/jxlhc09/6470809import java.net.UnknownHostException;import com.mongodb.DB;import com.mongodb.DBCursor;import com.mongodb.Mongo;publ
2013-10-29 15:43:56 751
原创 数据库基础知识
最近在回想之前面试的时候, 有些BT的面试官会问到自己一些比较基础的知识,比如什么是数据库,有几种范式==。相信现在有好多人都把一些比较重要的基础知识都忘了吧,请问,数据库系统中事务需遵守什么原则==。像这个问我记得当初回答时有回到到ACID 但是每个大写字母代表什么,还真心很难记住,这几天内心深处又在回忆了下,发现还是把它们给忘了,哎!!数据库范式有好多种(第一范式,二范
2013-10-28 17:52:38 713
原创 MongoDB的安装
公司新产品用mongoDB作为业务数据库,我勒个去,我还得将mongoDB数据导入到我的hdfs,郁闷呐!想着先研究研究mongoDB,今天刚安装上,安装还是挺简单的!1,从http://www.mongodb.org/downloads下载相应的安装版本 mongodb-linux-x86_64-2.4.7.tgz2,解压安装包,tar -xvf mongodb-linux-x86_
2013-10-25 17:53:48 557
原创 数据模型
数据模型(Data Model)是数据特征的抽象,是数据库管理的教学形式框架。数据库系统中用以提供信息表示和操作手段的形式构架 [引用于百度]。由以下三部分组成:1,数据结构;2,数据操作;3,数据约束。在平时工作中,数据模型可以划分为三个层次:1,概念模型面向于现实世界或者说面向于业务的。表达的是各业务主体间的关系。2,逻辑模型将现实世界的东西转化为数
2013-10-23 18:06:12 658
原创 升级hive-0.11后报java.lang.InstantiationException: org.antlr.runtime.CommonToke
今天早上一到公司就发现有个数据有问题,以为是原始数据出问题了,后来查看作业日志,发现以下情况java.lang.InstantiationException: org.antlr.runtime.CommonTokenContinuing ...java.lang.RuntimeException: failed to evaluate: =Class.new();Continui
2013-10-22 15:02:33 2153 7
原创 解决升级hive-0.11.0后报WARN conf.HiveConf: DEPRECATED: Configuration property hive.metastore.local no long
在将hive升级至0.11.0版本后,每次重新进入hive都会报出一WARN,很似烦人,内容如下:WARN conf.HiveConf: DEPRECATED: Configuration property hive.metastore.local no longer has any effect. Make sure to provide a valid value for hive.met
2013-10-21 11:54:50 3536
原创 hive的升级(0.8.0到0.11.0)
hive-0.11.0出来后,得知有将row_number进行封装,对于我这等不懂java的人士来说,是莫大的幸福啊!毫不犹豫的将0.8.0抛弃了!下面是具体升级步骤:1,关闭当前hive正在执行的进程,service hive-server以及相应的客户端(网上有些作者说要做的,其实这一步我倒没做,也没出现啥状况,为了责任,建议大家还是操作一下)。2,不管做哪方面的升级,首先肯定是将
2013-10-18 17:22:33 706
原创 处理hive中;分号字符
分号是sql的结束符,在hql中亦如此,但是hive对分号的识别没有那么智能,如下:select concat(';','aa') from lhc limit 1;FAILED: Parse Error: line 1:13 cannot recognize input near '' '' '' in function specification可见,hql只要遇见分号则认识是
2013-10-16 17:54:12 4513
原创 MapReduce的执行过程介绍
对于MapReduce这张图是相当经典的,在网上看到很多谈到MapReduce的执行过程都会用到这张图片,下面我也讲讲自己对它的基础认识。1,用户向jobclient提交MapReduce job。2,jobclient向Jobtracker申请一个新的job id(通过调用jobtracker的getnewjobid()获得)。3,将运行job所需的资源(Jar包,配置文件与计算所得
2013-10-15 16:42:11 1130
转载 Hive RCFile的高效存储结构
本文介绍了Facebook公司数据分析系统中的RCFile存储结构,该结构集行存储和列存储的优点于一身,在 MapReduce环境下的大规模数据分析中扮演重要角色。Facebook曾在2010 ICDE(IEEE International Conference on Data Engineering)会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中,提供了一套类数据
2013-10-14 18:10:58 858
转载 hive数据倾斜总结
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的
2013-10-11 14:36:41 545
转载 星型模型和雪花型模型比较
一、概述在多维分析的商业智能解决方案中,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑型数据的模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。当所有维表都直接连接到“ 事实表”上时,整个图解就像星星一样,故将该模型称为星型模型,如图 1 。星型架构是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相连接,不存在渐变维度,
2013-10-10 14:55:27 616
原创 Sqoop的安装方法
sqoop是一个用来将hadoop和RDBMS(如mysql,oracle,postgres等)之间数据相互导入导出的工具。安装与使用都相当简便。当然在你安装之前首先得确保你已经安装了hadoop(这个是必须的)、hive、hbase。安装如下:1,下载相应的sqoop版本。下载地址:http://mirrors.cnnic.cn/apache/sqoop/2,将下载的文件
2013-10-09 17:56:32 623
原创 mailx的安装方法
如果希望通过在linux下发送邮件,可以选用mailx,安装与操作都相当简单。下面就讲讲mailx安装与使用方法安装:1,下载mailx-12.4.tar.bz22,解压 tar –xvf mailx-12.4.tar.bz23,进入解压后的目录 mailx-12.44,使用make方式进行安装 make5,make install UCBINSTALL=/us
2013-10-08 16:29:34 4072
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人