- 博客(19)
- 资源 (2)
- 收藏
- 关注
转载 hive调优
优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。(当然我们可以在写hive语句的时候,可以看看hive是怎么把sql语句编程mapreduce的)理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所
2014-05-22 17:27:16 557
转载 面试笔试问题:大数据量,海量数据 处理方法总结
Hashing 适用范围:快速查找,删除的基本数据结构,通常需要总数据量可以放入内存 基本原理及要点: hash函数选择,针对字符串,整数,排列,具体相应的hash方法。 碰撞处理,一种是open hashing,也称为拉链法;另一种就是closed hashing,也称开地址法,opened addressing。 数 组的特点是:寻址容易,插入和删除困难;而链表的特点是:寻址困难,插入
2014-05-22 17:25:42 1409
转载 投资者看好hadoop的六大理由
1)投资者看好Hadoop目前,投资者十分看好Hadoop,并开始纷纷投资相关技术。从分布式层面上来说,Hadoop开源软件整体方案供应商Cloudera已获得7600万美元投资,分布式架构新成员MapR和Hortonworks分别融资2900万美元和5000万美元;而从栈的层面上来看,Hadoop海量数据分析平台Datameer、 Karmasphere和Hadapt已分别获得了1000万美
2014-03-20 22:41:50 509
原创 用SQL写的18位身份证校验代码
身份证校验码的计算方法 1、将前面的身份证号码17位数分别乘以不同的系数。第i位对应的数为[2^(18-i)]mod11。从第一位到第十七位的系数分别为:7 9 10 5 8 4 2 1 6 3 7 9 10 5 8 4 2 ; 2、将这17位数字和系数相乘的结果相加; 3、用加出来和除以11,看余数是多少?; 4、余数只可能有0 1 2 3 4 5 6 7
2014-03-20 22:39:03 3344
原创 ORACLE分区表、分区索引详解
ORACLE分区表、分区索引ORACLE对于分区表方式其实就是将表分段存储,一般普通表格是一个段存储,而分区表会分成多个段,所以查找数据过程都是先定位根据查询条件定位分区范围,即数据在那个分区或那几个内部,然后在分区内部去查找数据,一个分区一般保证四十多万条数据就比较正常了,但是分区表并非乱建立,而其维护性也相对较为复杂一点,而索引的创建也是有点讲究的,这些以下尽量阐述详细即可。1、类型说
2014-03-09 21:51:23 2471 1
原创 Server Tomcat v6.0 Server at localhost was unable to start within 45 seconds 的解决方法
错误 :Server Tomcat v6.0 Server at localhost was unable to start within 45 seconds. If the server requires more time, try increasing the timeout in the server editor. 也就是我们限定了部署的时间导致的错误。修改 works
2014-02-12 09:15:52 648
原创 Resource is out of sync with the file system解决办法
在eclipse或mycelipse中,启动run on server时或查看项目文件时报错: Resource is out of sync with the file system: '/Test_1_Struts_Spring_Hibernate/WebContent/WEB-INF/.struts-config.xml.strutside'.这是文件系统不同步的问题,是因为
2014-02-11 18:13:01 1048
原创 13个SQL优化技巧
1 避免无计划的全表扫描 如下情况进行全表扫描:- 该表无索引- 对返回的行无人和限制条件(无Where子句)- 对于索引主列(索引的第一列)无限制条件- 对索引主列的条件含在表达式中- 对索引主列的限制条件是is (not) null或!=- 对索引主列的限制
2014-01-26 22:32:50 470
原创 DBA常用视图大全
dba_users 数据库用户信息dba_segments 表段信息dba_extents 数据区信息dba_objects 数据库对象信息dba_tablespaces 数据库表空间信息dba_data_files 数据文件设置信息dba_temp_files 临时数据
2013-12-15 18:22:44 2410
转载 Linux版 对普通用户进行审计的示例
我们既可以对SYS用户进行审计,那么在平时的时候更多的是对普通用户的审计,对普通用户的审计就没有这么严格了,它的审计记录是可以放在数据库基表sys.aud$中的,我们可以在数据库层面上进行查看。标准审计内容(1)审计会话(2)审计对象(3)审计操作(4)审计授权实验SYS@LEO1>show userUSER is "SYS"SYS@LEO1>alter sys
2013-12-15 18:14:57 492
转载 Linux版 对sys用户进行审计的示例
我们在操作数据库的时候,知道SYS用户的权限是最大的干什么事很方便,同时带来的问题就是非常危险,没有人可以束缚住。因此我们有时需要对SYS用户进行审计SYS@LEO1>show parameter auditNAME TYPE VALUE------------------------------------
2013-12-15 18:13:55 460
转载 这种SQL怎么调整?
只有20几行的表,笛卡儿积要很久,逻辑读很大,改为物理表就没事了,改为其他写法也没事SQL> set lines 132 pages 50000SQL> set autot onSQL> with t as(select 2*level+1 a from dual connect by level 2 p as (select a from t where a>10
2013-12-01 21:43:44 438
原创 通过Ip查询登录地址
晚上闲着没事自己动手写了一些,发现好多东西写的好蠢,然后想了想网上这写东西肯定有接口的啊;SO 百度的一下,发现网易的还挺好用,这里介绍网易有道在上面发布的三款免费API,速度有保证,所以拿来与大家分享一下。这三款接口都是以URL GET方式提交参数,以XML的形式返回查询结果查询IP地址:http://www.youdao.com/smartresult-xml/search
2013-11-30 22:07:26 1243
转载 ZooKeeper典型应用场景一览
数据发布与订阅(配置中心) 发布与订阅模型,即所谓的配置中心,顾名思义就是发布者将数据发布到ZK节点上,供订阅者动态获取
2013-11-12 21:38:05 646
原创 hadoop 的 框架 ZooKeeper 入门
首先先了解一下 ZooKeeper 是什么? Zookeeper 是 Google 的 Chubby一个开源的实现,是 Hadoop 的分布式协调服务;它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等那么ZooKeeper 又有什么作用呢?用一张图片来做一个简单的了解那么hadoop 又为什么要用 ZooKeeper 来处理事件呢?ZooK
2013-11-10 00:17:04 626
原创 虚拟机中 hadoop 的集群的搭建 以及 中途可能出现的问题
搭建集群的提前准备:机器名 机器IP 用 途 描 述hadoop1 192.168.242.130 namenode/secondaryN
2013-11-09 23:48:51 648
原创 针对 hadoop 中MapReduce 测试过程中的内存溢出的问题
上面这个错误并不是程序自身的逻辑有问题,而是产生了大量内存而导致的,那么下面我就来解决一下这个问题如果你用的工具是 MyEclipse (嘿嘿,因为习惯了它)当然上面的 512 不是固定的,依据个人需要当然最后要是控制台有这样的输出,就一切OK啦
2013-11-07 23:45:29 1693
原创 hadoop 中 hdfs 的 RPC 机制 (简单的分析源码)
RPC 即为远程过程调用(Romote Process Call),即远程调用其他虚拟机中的运行的Java Object,RPC是一个C/S模式,使用的时候包括服务器代码和客户端代码,RPC就是建立在此基础上的。现在就用一个简单的程序带大家对HDFS的运行机制做一个分析。MyClient部分:import java.net.InetSocketAddress;import org.
2013-11-06 23:14:46 1060
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人