SiLa_Sheng-CSDN博客

转载 hive调优

优化时，把hive sql当做map reduce程序来读，会有意想不到的惊喜。（当然我们可以在写hive语句的时候，可以看看hive是怎么把sql语句编程mapreduce的）理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所

2014-05-22 17:27:16 557

转载面试笔试问题：大数据量，海量数据处理方法总结

Hashing 适用范围：快速查找，删除的基本数据结构，通常需要总数据量可以放入内存基本原理及要点： hash函数选择，针对字符串，整数，排列，具体相应的hash方法。碰撞处理，一种是open hashing，也称为拉链法；另一种就是closed hashing，也称开地址法，opened addressing。数组的特点是：寻址容易，插入和删除困难；而链表的特点是：寻址困难，插入

2014-05-22 17:25:42 1409

转载投资者看好hadoop的六大理由

1）投资者看好Hadoop目前，投资者十分看好Hadoop，并开始纷纷投资相关技术。从分布式层面上来说，Hadoop开源软件整体方案供应商Cloudera已获得7600万美元投资，分布式架构新成员MapR和Hortonworks分别融资2900万美元和5000万美元;而从栈的层面上来看，Hadoop海量数据分析平台Datameer、 Karmasphere和Hadapt已分别获得了1000万美

2014-03-20 22:41:50 509

原创用SQL写的18位身份证校验代码

身份证校验码的计算方法　　1、将前面的身份证号码17位数分别乘以不同的系数。第i位对应的数为[2^(18-i)]mod11。从第一位到第十七位的系数分别为：7 9 10 5 8 4 2 1 6 3 7 9 10 5 8 4 2 ；　　2、将这17位数字和系数相乘的结果相加；　　3、用加出来和除以11，看余数是多少？；　　4、余数只可能有0 1 2 3 4 5 6 7

2014-03-20 22:39:03 3344

原创 ORACLE分区表、分区索引详解

ORACLE分区表、分区索引ORACLE对于分区表方式其实就是将表分段存储，一般普通表格是一个段存储，而分区表会分成多个段，所以查找数据过程都是先定位根据查询条件定位分区范围，即数据在那个分区或那几个内部，然后在分区内部去查找数据，一个分区一般保证四十多万条数据就比较正常了，但是分区表并非乱建立，而其维护性也相对较为复杂一点，而索引的创建也是有点讲究的，这些以下尽量阐述详细即可。1、类型说

2014-03-09 21:51:23 2471 1

原创 Server Tomcat v6.0 Server at localhost was unable to start within 45 seconds 的解决方法

错误：Server Tomcat v6.0 Server at localhost was unable to start within 45 seconds. If the server requires more time, try increasing the timeout in the server editor. 也就是我们限定了部署的时间导致的错误。修改 works

2014-02-12 09:15:52 648

原创 Resource is out of sync with the file system解决办法

在eclipse或mycelipse中，启动run on server时或查看项目文件时报错： Resource is out of sync with the file system: '/Test_1_Struts_Spring_Hibernate/WebContent/WEB-INF/.struts-config.xml.strutside'.这是文件系统不同步的问题，是因为

2014-02-11 18:13:01 1048

原创轻松带你走进Oracle数据库的世界

1.使用sqlplus 启动和关闭数据库。2.创建用户test，密码test.

2014-02-05 12:25:10 552

原创 13个SQL优化技巧

1 避免无计划的全表扫描如下情况进行全表扫描：- 该表无索引- 对返回的行无人和限制条件（无Where子句）- 对于索引主列（索引的第一列）无限制条件- 对索引主列的条件含在表达式中- 对索引主列的限制条件是is (not) null或!=- 对索引主列的限制

2014-01-26 22:32:50 470

原创 DBA常用视图大全

dba_users 数据库用户信息dba_segments 表段信息dba_extents 数据区信息dba_objects 数据库对象信息dba_tablespaces 数据库表空间信息dba_data_files 数据文件设置信息dba_temp_files 临时数据

2013-12-15 18:22:44 2410

转载 Linux版对普通用户进行审计的示例

我们既可以对SYS用户进行审计，那么在平时的时候更多的是对普通用户的审计，对普通用户的审计就没有这么严格了，它的审计记录是可以放在数据库基表sys.aud$中的，我们可以在数据库层面上进行查看。标准审计内容（1）审计会话（2）审计对象（3）审计操作（4）审计授权实验SYS@LEO1>show userUSER is "SYS"SYS@LEO1>alter sys

2013-12-15 18:14:57 492

转载 Linux版对sys用户进行审计的示例

我们在操作数据库的时候，知道SYS用户的权限是最大的干什么事很方便，同时带来的问题就是非常危险，没有人可以束缚住。因此我们有时需要对SYS用户进行审计SYS@LEO1>show parameter auditNAME TYPE VALUE------------------------------------

2013-12-15 18:13:55 460

转载这种SQL怎么调整？

只有20几行的表，笛卡儿积要很久，逻辑读很大，改为物理表就没事了，改为其他写法也没事SQL> set lines 132 pages 50000SQL> set autot onSQL> with t as(select 2*level+1 a from dual connect by level 2 p as (select a from t where a>10

2013-12-01 21:43:44 438

原创通过Ip查询登录地址

晚上闲着没事自己动手写了一些，发现好多东西写的好蠢，然后想了想网上这写东西肯定有接口的啊；SO 百度的一下，发现网易的还挺好用，这里介绍网易有道在上面发布的三款免费API，速度有保证，所以拿来与大家分享一下。这三款接口都是以URL GET方式提交参数，以XML的形式返回查询结果查询IP地址：http://www.youdao.com/smartresult-xml/search

2013-11-30 22:07:26 1243

转载 ZooKeeper典型应用场景一览

数据发布与订阅（配置中心）发布与订阅模型，即所谓的配置中心，顾名思义就是发布者将数据发布到ZK节点上，供订阅者动态获取

2013-11-12 21:38:05 646

原创 hadoop 的框架 ZooKeeper 入门

首先先了解一下 ZooKeeper 是什么？ Zookeeper 是 Google 的 Chubby一个开源的实现，是 Hadoop 的分布式协调服务；它包含一个简单的原语集，分布式应用程序可以基于它实现同步服务，配置维护和命名服务等那么ZooKeeper 又有什么作用呢？用一张图片来做一个简单的了解那么hadoop 又为什么要用 ZooKeeper 来处理事件呢？ZooK

2013-11-10 00:17:04 626

原创虚拟机中 hadoop 的集群的搭建以及中途可能出现的问题

搭建集群的提前准备：机器名机器IP 用途描述hadoop1 192.168.242.130 namenode/secondaryN

2013-11-09 23:48:51 648

原创针对 hadoop 中MapReduce 测试过程中的内存溢出的问题

上面这个错误并不是程序自身的逻辑有问题，而是产生了大量内存而导致的，那么下面我就来解决一下这个问题如果你用的工具是 MyEclipse （嘿嘿，因为习惯了它）当然上面的 512 不是固定的，依据个人需要当然最后要是控制台有这样的输出，就一切OK啦

2013-11-07 23:45:29 1693

原创 hadoop 中 hdfs 的 RPC 机制（简单的分析源码）

RPC 即为远程过程调用（Romote Process Call），即远程调用其他虚拟机中的运行的Java Object，RPC是一个C/S模式，使用的时候包括服务器代码和客户端代码，RPC就是建立在此基础上的。现在就用一个简单的程序带大家对HDFS的运行机制做一个分析。MyClient部分：import java.net.InetSocketAddress;import org.

2013-11-06 23:14:46 1060

shengguocun的专栏