randee_luo
码龄16年
关注
提问 私信
  • 博客:54,809
    社区:4,690
    59,499
    总访问量
  • 23
    原创
  • 1,111,317
    排名
  • 21
    粉丝
  • 0
    铁粉

个人简介:爱学习的坏同学

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2009-02-25
博客简介:

jxlhc09的专栏

查看详细资料
个人成就
  • 获得10次点赞
  • 内容获得11次评论
  • 获得16次收藏
创作历程
  • 3篇
    2014年
  • 28篇
    2013年
成就勋章
TA的专栏
  • hadoop
    5篇
  • hive
    15篇
  • sqoop
    2篇
  • 数据仓库
    5篇
  • linux
    2篇
  • mongoDB
    6篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Hadoop中map数的计算

Hadoop中在计算一个JOB需要的map数之前首先要计算分片的大小。计算分片大小的公式是:goalSize = totalSize / mapred.map.tasksminSize = max {mapred.min.split.size, minSplitSize}splitSize = max (minSize, min(goalSize, dfs.bl
转载
发布博客 2014.01.23 ·
698 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

hive 0.10 0.11新增特性综述

我们的hive版本升迁经历了0.7.1 -> 0.8.1 -> 0.9.0,并且线上shark所依赖的hive版本也停留在0.9.0上,在这些版本上有我们自己的bug fix patch和feature enhancement。但是Hive的版本升级很快,新版本中修复了大量bug,新增了很多功能,非常令人兴奋,其中包括对未来hadoop升级为YARN的支持。所以我们准备将hive版本升级为0.11
转载
发布博客 2014.01.08 ·
756 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

hive的overwrite

这几天有个朋友问我 hive的overwrite是怎么执行重写,假如重写执行到一半报错,会不会导致丢失数据呢?一开始没有反应过来,后来想想,其实这个可以从 explain 上看到的。hive (temp)> explain insert overwrite table ods.ods_memberext_dd select * from temp.lhc_memberext_2013092
原创
发布博客 2014.01.08 ·
3778 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

hive优化

hive.optimize.cp=true:列裁剪 hive.optimize.prunner:分区裁剪 hive.limit.optimize.enable=true:优化LIMIT n语句 hive.limit.row.max.size=1000000: hive.limit.optimize.limit.file=10:最大文件数1. 本地模式(小任务): 需
转载
发布博客 2013.12.26 ·
565 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive – Group By 的实现

准备数据hive> SELECT * FROM logs;a 苹果 5a 橙子 3a 苹果 2b 烧鸡 1 hive> SELECT uid, SUM(COUNT) FROM logs GROUP BY uid;a 10b 1计算过程默认设置了hive.map.aggr=true,所以会在mapper端先group by一次,最后再把结
转载
发布博客 2013.12.25 ·
1196 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

hive中的order by+sort by+distribute by+cluster by

order by  它会对输出数据做全局排序,因此在order by 过程中会将所有数据放入一个reduce(如果是多个reduce的话则不能保证order by 后数据是有序的),当数据量大时,一个reduce的处理压力就成了问题。当 set hive.mapred.mode=nonstrict (默认值)时,hive会正常处理order by 。当 set hive.mapred.
原创
发布博客 2013.12.25 ·
1158 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

left outer join 的简单总结

表:lhc01id      uid3       12       11       14       11       23       2表:lhc02id      uid1       24       12       1一,基本left outer joinselect * from lhc01 a left outer
原创
发布博客 2013.12.10 ·
4677 阅读 ·
0 点赞 ·
0 评论 ·
7 收藏

Mongodb用户和认证 权限总结

mongodb数据库db2shellexceptionuser 开启MongoDB服务时不添加任何参数时,默认是没有权限验证的,登录的用户可以对数据库任意操作而且可以远程访问数据库!   在刚安装完毕的时候MongoDB都默认有一个admin数据库,此时admin数据库是空的,没有记录权限相关的信息!当admin.system.users一个用户都没有时,即使mongod启动时添加了--a
转载
发布博客 2013.12.05 ·
736 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

解决mongodb启动时报locale错误以及linux终端或hive CLI无法输入中文的方法

在安装完mongodb后,进入$MONGODB_HOME/bin  执行mongod启动时报exception in initAndListen: 14043 clear tmp files caught exception exception: locale::facet::_S_create_c_locale name not valid, terminating从error信息可
原创
发布博客 2013.12.02 ·
1596 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

SQOOP 解决import时字段为NULL值的情况

想必有些朋友刚开始接触sqoop时,在从mysql(或者别的RDBMS)导入数据到hdfs后会发现原来在mysql中字段值明明是NULL, 为什么到hive查询后 where field is null 会没有结果呢,然后通过检查一看  居然NULL值都变成了字段串'null'。其实你在导入的时候加上以下两个参数就可以解决了,--null-string '\\N' --null-non
原创
发布博客 2013.11.21 ·
8539 阅读 ·
3 点赞 ·
2 评论 ·
6 收藏

mongoDB简单语句

自己整理了一些mongoDB日常会用到的语句,sqlmongoselect * from lhcdb.lhc.find()select * from lhc limit 1db.lhc.findOne()db.lhc.find().limit(1)select id,name from lhcdb.lhc.find({
原创
发布博客 2013.11.08 ·
755 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

mongoDB的导出工具mongoexport

据了解当前mongoDB支持将数据导成两种形式,一是json  二是csv可以通过./mongoexport --help 来查看参数介绍-h [ --host ] arg  连接的ip地址--port arg 端口号-u [ --username ] arg        用户名-p [ --password ] arg         密码-d [ --db
原创
发布博客 2013.10.29 ·
1861 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

java连接mongoDB

如果没有jar驱动包的先到以下连接下载驱动包。http://download.csdn.net/detail/jxlhc09/6470809import java.net.UnknownHostException;import com.mongodb.DB;import com.mongodb.DBCursor;import com.mongodb.Mongo;publ
原创
发布博客 2013.10.29 ·
779 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

mongo-java-driver

发布资源 2013.10.29 ·
jar

数据库基础知识

最近在回想之前面试的时候,  有些BT的面试官会问到自己一些比较基础的知识,比如什么是数据库,有几种范式==。相信现在有好多人都把一些比较重要的基础知识都忘了吧,请问,数据库系统中事务需遵守什么原则==。像这个问我记得当初回答时有回到到ACID  但是每个大写字母代表什么,还真心很难记住,这几天内心深处又在回忆了下,发现还是把它们给忘了,哎!!数据库范式有好多种(第一范式,二范
原创
发布博客 2013.10.28 ·
744 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

MongoDB的安装

公司新产品用mongoDB作为业务数据库,我勒个去,我还得将mongoDB数据导入到我的hdfs,郁闷呐!想着先研究研究mongoDB,今天刚安装上,安装还是挺简单的!1,从http://www.mongodb.org/downloads下载相应的安装版本 mongodb-linux-x86_64-2.4.7.tgz2,解压安装包,tar -xvf mongodb-linux-x86_
原创
发布博客 2013.10.25 ·
584 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数据模型

数据模型(Data Model)是数据特征的抽象,是数据库管理的教学形式框架。数据库系统中用以提供信息表示和操作手段的形式构架 [引用于百度]。由以下三部分组成:1,数据结构;2,数据操作;3,数据约束。在平时工作中,数据模型可以划分为三个层次:1,概念模型面向于现实世界或者说面向于业务的。表达的是各业务主体间的关系。2,逻辑模型将现实世界的东西转化为数
原创
发布博客 2013.10.23 ·
690 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

升级hive-0.11后报java.lang.InstantiationException: org.antlr.runtime.CommonToke

今天早上一到公司就发现有个数据有问题,以为是原始数据出问题了,后来查看作业日志,发现以下情况java.lang.InstantiationException: org.antlr.runtime.CommonTokenContinuing ...java.lang.RuntimeException: failed to evaluate: =Class.new();Continui
原创
发布博客 2013.10.22 ·
2210 阅读 ·
0 点赞 ·
7 评论 ·
0 收藏

解决升级hive-0.11.0后报WARN conf.HiveConf: DEPRECATED: Configuration property hive.metastore.local no long

在将hive升级至0.11.0版本后,每次重新进入hive都会报出一WARN,很似烦人,内容如下:WARN conf.HiveConf: DEPRECATED: Configuration property hive.metastore.local no longer has any effect. Make sure to provide a valid value for hive.met
原创
发布博客 2013.10.21 ·
3592 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive的升级(0.8.0到0.11.0)

hive-0.11.0出来后,得知有将row_number进行封装,对于我这等不懂java的人士来说,是莫大的幸福啊!毫不犹豫的将0.8.0抛弃了!下面是具体升级步骤:1,关闭当前hive正在执行的进程,service hive-server以及相应的客户端(网上有些作者说要做的,其实这一步我倒没做,也没出现啥状况,为了责任,建议大家还是操作一下)。2,不管做哪方面的升级,首先肯定是将
原创
发布博客 2013.10.18 ·
754 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多