自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(59)
  • 资源 (3)
  • 收藏
  • 关注

原创 hive 实现多行转一行处理方法

最近公司在做客户端阅历数据分析,服务器端同事需要计算每个用户的读书分类,读了多少本书,读过多少本书,总时长,总分,数据量非常大,服务器同事那边单机处理一次需要10个小时,后来我拿来我们这边做,分布式计算总比单机计算快吧,所以分享一下:1.需要统计每个用户的书籍分类sql:select us.user_name,us.bid,b.classname from book_clas...

2013-11-01 13:35:30 1627

原创 hadoop导入eclipse并编译打包

由于最近在修改hadoop的权限配置,需要重新编译打包源码,由于每次导入hadoop源码到eclipse中,有点小麻烦,所以写此文。1.新建一个java工程,将该工程下面的.classpath  .project 拷贝到$HADOOP_HOME下面,然后修改.project里面,将工程名字修改为hadoop-1.0.3<?xml version="1.0" encoding="UT...

2013-09-30 16:52:18 202

原创 远程调试hadoop各组件

远程调试对应用程序开发十分有用。例如,为不能托管开发平台的低端机器开发程序,或在专用的机器上(比如服务不能中断的 Web 服务器)调试程序。其他情况包括:运行在内存小或 CUP 性能低的设备上的 Java 应用程序(比如移动设备),或者开发人员想要将应用程序和开发环境分开,等等。为了进行远程调试,必须使用 Java Virtual Machine (JVM) V5.0 或更新版本。JPD...

2013-09-22 14:35:14 164

原创 maven pom文件解释

<project xmlns="http://maven.apache.org/POM/4.0.0 "       xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance "       xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/...

2013-09-18 16:39:55 209

原创 日常工作笔记

1.mven建立JAVA工程命令:mvn archetype:create -DgroupId=com.renren.dolphin -DartifactId=dolhpin-statistics2.通用cachehttp://www.docin.com/p-529674965.html

2013-05-09 08:02:02 130

原创 分布式搜索方案选型

分布式搜索方案选型之一:Solr      我第一个了解到的分布式搜索框架是solr,它是由java开发的,基于lucene的分布式搜索引擎,提供了类似于webserver的编程接口,是一个比较成熟的搜索引擎,目前很多公司都在使用。很快我就部署了一个由4台机器组成的solr集群,开始导公司的数据进去测试,导的数据为200万。导入速度非常快。接下来就开始测试查询效率,发现它是有缓存的,第一次查询...

2013-04-05 11:55:54 81

原创 JMS实例分析

1. JMS基本概念     JMS(Java Message Service) 即Java消息服务。它提供标准的产生、发送、接收消息的接口简化企业应用的开发。它支持两种消息通信模型:点到点(point-to-point)(P2P)模型和发布/订阅(Pub/Sub)模型。P2P 模型规定了一个消息只能有一个接收者;Pub/Sub 模型允许一个消息可以有多个接收者。    对于点到点模型,消息生产...

2013-04-02 01:47:13 90

原创 设置eclipse workbanch背景

eclipse操作界面默认颜色为白色。对于我们长期使用电脑编程的人来说,白色很刺激我们的眼睛,所以我经常会改变workspace的背景色,使眼睛舒服一些。 设置方法如下: 1、打开window->Preference,弹出Preference面板 2、展开General标签,选中Editors选项,展开。 3、选中 Test Editors,右边出现Test Editors面板。     ...

2013-03-20 00:05:33 171

原创 hive metastore 基础表简绍

hive metastore主要涉及的基础表为:  表的关系为    

2013-03-05 11:22:06 194 1

原创 hive数据倾斜之multi-distinct性能优化

集群182个节点,一天的数据量20亿条,查询网站一天的流量数据:uv、pv、ip、cookie、onlinetime,其中uv、ip、cookie 需要distinct去重。reduce到达99%的时候,就卡死了,由于多个distinct 加上数据倾斜造成的。优化之前的sql:select sum(case when d.pv_flag=1 then 1 else 0 end) as ...

2013-02-27 16:19:00 511

原创 mysql常用函数总结

一、concat使用方法:CONCAT(str1,str2,…)返回结果为连接参数产生的字符串。如有任何一个参数为NULL ,则返回值为 NULL。注意:如果所有参数均为非二进制字符串,则结果为非二进制字符串。如果自变量中含有任一二进制字符串,则结果为一个二进制字符串。一个数字参数被转化为与之相等的二进制字符串格式;若要避免这种情况,可使用显式类型 cast, 例如:...

2013-02-16 11:46:32 68

原创 设置JVM启动属性,设置tomcat远程调试端口

在eclipse中设置启动属性,或者在命令行运行时设置   -Dproperty=weirongneng public class Dproperty { public static void main(String[] args) { String val = System.getProperty("wrn"); System.out.println(val);...

2013-02-12 17:08:27 582

原创 hadoop权威指南--气温最大值所遇到的--内部类为静态的问题

老的API:public class MaxTemperature { public static class MaxTemperatureMapper extends MapReduceBase implements Mapper<LongWritable, Text, Text, IntWritable> { private static fin...

2013-02-06 11:30:08 172

原创 hive海量数据--统计一年网站各个产品的UV

在做年终报表需要统计公司网站各个产品一年总的UV,抽出id,product到表year2012,数据条数大概为5千多亿条,由于数据量太大。1 .select count(distinct id) as uv,product from year2012 where log_date>='2012-01-01' and log_date<='2012-12-31' gr...

2013-02-06 11:00:45 573

原创 mysql 导出导入数据实战

1.导出数据:mysql  -h******  -uacorn   -p***** -Dscrat  -e " select * from  table " > ******.txt2.导入数据mysql  -h******  -uacorn   -p***** -Dscrat  -e "load data local  infile  '/home/acorn/acorn/fo...

2012-12-19 18:30:49 90

原创 hive 仓库中已存在分区,导入数据报错

1.查看数据仓库中数据已存在hadoop  fs  -ls   /warehouse/photo_action_dap/log_date=2012-12-152.查看mysql数据库,分区表中没有2012-12-15分区信息3.元数据库中没有分区数据,导致导入错误;解决办法:1.手动将分区信息添加到数据库中2.执行   hadoop   fs  -rmr    /wareh...

2012-12-17 13:03:16 345

hive 数据倾斜问题

由于同事将未登录网站的相关信息导入到日常访问信息表中,之前的数据总量为7亿,现在13亿,数据差不多扩了一倍,所以在统计独立IP、UV、PV、独立cookie数,出现数据倾斜,reduce 进度99%时就被卡住了,因为未登录用户的用户ID为0,这样导致所有用户ID为0的数据都分到了一个reduce上,6亿的数据。目前简单的解决方法:关联查询的sql:         insert ove...

2012-12-17 09:59:40 103

原创 centos系统中脚本文件中中文乱码

[size=medium]1.确认系统中的LANG=zh_CN.UTF-8[/size][size=medium]2.确认服务器用户目录下是否有.vimrc文件,以及其中的配置cat ~/.vimrc set fileencodings=utf-8,gb2312,gbk,cp936,big5,ucs-bomset encoding=utf-8set termencoding...

2012-08-20 10:41:38 407

原创 在linux上配置samba

[size=medium][color=blue]在linux上安装配置samba服务器http://publish.it168.com/2007/0629/20070629156203.shtml 启动samba服务 //redHat[root@linux samba]# service smb start (启动samba服务)Starting SMB servi...

2011-04-13 11:19:01 126

原创 java.lang.NoSuchMethodError: org.springframework.util.ReflectionUtils.makeAccess

[size=x-small]信息: The APR based Apache Tomcat Native library which allows optimal performance in production environments was not found on the java.library.path: C:\Program Files\Java\jdk1.6.0_06\bin;D...

2011-04-09 16:14:08 917

原创 Myeclipse中的工作出现错误,但是工程里面的类没有错误

出现以上错误,是由于工程下面的.classpath文件中执行的路径,Myeclipse找不到所致,注意不要直接导入别人的工程,可以自己新建一个工程,然后将相关的包类拷贝过来就可以了...

2011-01-11 11:24:28 174

原创 Mysql不能连接

[size=medium]com.mysql.jdbc.CommunicationsException: Communications link failure due to underlying exception:** BEGIN NESTED EXCEPTION **java.io.EOFExceptionSTACKTRACE:java.io.EOFExc...

2011-01-11 11:07:48 107

原创 Java IO

[size=medium] 本篇主要讲述IO相关的内容,主要包括:与IO相关的简单的历史背景知识;Java IO的简单分类;与IO设计相关的两个模式;同时列举几个简单的例子;分析其中几个实现的源代码;最后给大家一些简单扩展的例子。治学先治史,下面我们先从简单的历史开始吧! 一、 历史背景 “对语言设计人员来说,创建好的输入/输出系统是一项特别困难的任务。”――...

2011-01-04 12:08:33 93

原创 大型论坛数据库设计

[size=medium][color=indigo]http://www.iteye.com/topic/364016?page=5ak478288:简单用户表 tb_user: userid , username 用户详细信息表 tb_userinfo userid , email , homepage , phone , address 把用户信息分开...

2010-12-15 11:11:09 148

原创 mysql分表的3种方法

[size=medium]一,先说一下为什么要分表当一张的数据达到几百万时,你查询一次所花的时间会变多,如果有联合查询的话,我想有可能会死在那儿了。分表的目的就在于此,减小数据库的负担,缩短查询时间。根据个人经验,mysql执行一个sql的过程如下:1,接收到sql;2,把sql放到排队队列中 ;3,执行sql;4,返回执行结果。在这个执行过程中最花时间在什么地方呢?第一,是排...

2010-12-15 10:52:16 131

原创 mysql数据库千万级别数据的查询优化和分页测试

[size=large][color=blue]转载于http://blog.sina.com.cn/s/blog_438308750100im0b.html[/color][/size]yubaojian0616@163.com 于堡舰[size=medium]我原来的公司是一家网络游戏公司,其中网站交易与游戏数据库结合通过ws实现的,但是交易记录存放在网站上,级别是千万级别的数据库是mys...

2010-12-15 10:19:50 221

原创 [J2SE]Map.Entry 类使用简介(转)

[size=medium]你是否已经对每次从Map中取得关键字然后再取得相应的值感觉厌倦?使用Map.Entry类,你可以得到在同一时间得到所有的信息。标准的Map访问方法如下:Set keys = map.keySet( );if(keys != null) {Iterator iterator = keys.iterator( );while(iterator.hasNex...

2010-12-10 09:30:43 140

原创 比较分析Vector,Arraylist,Hashtable,HashMap数据结构

[size=large]线性表,链表,哈希表是常用的数据结构,在进行Java开发时,JDK已经为我们提供了一系列相应的类来实现基本的数据结构。这些类均在java.util包中。本文试图通过简单的描述,向读者阐述各个类的作用以及如何正确使用这些类。 Collection├List│├LinkedList│├ArrayList│└Vector│ └Sta...

2010-12-09 09:15:13 108

原创 RMI远程调用时机问题

RMI注册时间不一样,虽然是同一个名字,但是获取的类不一样。

2010-11-22 08:38:49 75

原创 JAVA jvm 参数 -Xms -Xmx -Xmn -Xss

常见配置举例 堆大小设置 JVM 中最大堆大小有三方面限制:相关操作系统的数据模型(32-bt还是64-bit)限制;系统的可用虚拟内存限制;系统的可用物理内存限制.32位系统 下,一般限制在1.5G~2G;64为操作系统对内存无限制.我在Windows Server 2003 系统,3.5G物理内存,JDK5.0下测试,最大可设置为1478m. 典型设置: java -Xmx35...

2010-11-04 14:40:39 92

原创 Error listenerStart

近日浏览论坛,发现好多人提问,都说在运行web程序时,服务器报出Error listenerStart的严重错误,导致页面无法正常访问或其他问题出现。 这类问题通常都是因为在web.xml里面添加了 org.springframework.web.context.ContextLoaderListener 而导致的。看到有人回...

2010-11-04 14:37:44 96

原创 jvm内存调优经验总结

[color=blue][/color][size=x-small][/size]JVM 调优,是个很简单也很复杂的话题,由于经常遇到这类问题,在这里总结一下。先从解决bug开始,当Java程序申请内存,超出VM可分配内纯的时候,VM首先可能会GC,如果GC完还是不够,或者申请的直接超够VM可能有的,就会抛出内 存溢出异常。从VM规范中我们可以得到,一下几种异常。java....

2010-11-04 14:37:00 124

原创 java的final和static区别

final定义的变量可以看做一个常量,不能被改变; final定义的方法不能被覆盖; final定义的类不能被继承。 final static 就是再加上static的特性就可以了static 和final是没有直接关系的 static 是在内存中分配一块区域,供整个类通用,所有的类的对象都享有它的共同的值static 和final的区别...

2010-10-19 10:30:25 51

原创 Java设计模式中的11种

一:设计模式是最重要的课程之一,堪称软件界的九阳真经,设计模式是一大套被反复使用,多数人知晓的,经过分类编目的,代码总结,使用设计模式是为了可重用代码.让代码更容易被他人理解,保证代码可靠性。 二:学习设计模式最常见的理由是因为我们可以借其: 1. 复用解决方案----避免重蹈前人的覆辙,从学习他人的经验中获益,用不着为那些总是会重复出现的问题再次设计解决方案. ...

2010-10-14 17:35:42 66

原创 MYSQL数据库引擎,ISAM和INNODB

其余都属于第二类,称为”非事务安全型”(non-transaction-safe)。 1/ISAM ISAM是一个定义明确且历经时间考验的数据表格管理方法,它在设计之时就考虑到数据库被查询的次数要远大于更新的次数。因此,ISAM执行读取操作的速度很快,而且不占用大量的内存和存储资源。ISAM的两个主要不足之处在于,它不支持事务处理,也不能够容错:如果你的硬盘崩溃了,那么数据文件...

2010-08-23 10:20:46 131

原创 PowerDesigner设计数据库

本文档不讲述如何使用PowerDesigner,而是讲述如何将PowerDesigner的特点结合数据库设计的方法更好的设计一个数据库系统。采用PowerDesigner设计数据库PowerDesigner作为数据库建模和设计的CASE工具之一,在数据库系统开发中发挥着重要作用。运用PowerDesigner进行数据库设计,不但给人直观地理解模型,而且充分运用数据库的技术,...

2010-08-20 16:28:37 85

原创 调整tomcat的内存

Tomcat本身不能直接在计算机上运行,需要依赖于硬件基础之上的操作系统和一个java虚拟机。JAVA程序启动时JVM都会分配一个初始内存和最大内存给这个应用程序。这个初始内存和最大内存在一定程度都会影响程序的性能。比如说在应用程序用到最大内存的时候,JVM是要先去做垃圾回收的动作,释放被占用的一些内存。所以想调整Tomcat的启动时初始内存和最大内存就需要向JVM声明,一般的JAVA程序在运行都...

2010-08-06 09:16:52 104

原创 解决MyEclipse7.0速度慢秘诀学习

解决MyEclipse7.0速度慢秘诀学习 优化 myeclipse7.0 速度大家一定对 myeclipse 的速度经常感到痛苦把,ok,现在开始给 myeclipse 提速: 一、加大JVM的非堆内存 打开 myeclipse.ini,把下面的那个 -XX:MaxPermSize 调大,比如 -XX:MaxPermSize=512M,再把 -XX:PermSiz...

2010-08-04 17:05:38 84

原创 Lucene源码分析-- Analyzer

本文主要分析一下 Lucene输入部分——Analyzer(分析器)。为什么要有Analyzer部分呢?打个比方,人体在消化食物的时候,是不是都要把食物分解掉?食物在肠道里面,被分解成葡萄糖、氨基酸、脂肪等等。变成小块以后,才容易被吸收并加以利用。Lucene也有类似的过程:把文本分解成更小的单元,有词、标点符号、分割符号,甚至还有网站名等等。Analyzer就好比是人体的肠道,它的职责就是把输入...

2010-08-02 15:09:30 79

原创 ik-analyzer

IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。 IKAnaly...

2010-08-02 15:05:19 81

ASP中最常见的1000多个问题的解答

ASP中最常见的1000多个问题的解答,你在开发中不得不见的问题,很实用,在开发中总结和搜集出来的。

2008-10-23

WEB开发的必备文档

WEB开发的必备文档,学习web开发最全的文档!!

2008-10-23

很好的学习ASP的资料,一学就会,知识点全部包括在里面。

很好的学习ASP的资料,一学就会,知识点全部包括在里面。

2008-09-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除