- 博客(22)
- 资源 (6)
- 收藏
- 关注
原创 Hadoop 2.0 + hive + hbase 安装手记
在Centos6.2部署Hadoop2.0+HIVE+HBASE,相比之前的老版本,新版本的安装还是要更繁琐一些,具体表现在要从众多的配置文件里找出关键的配置项,配置合理的值。 这里有2个难题,第一个是找出关键配置项实在是件费力的事情,有的是操作系统的配置,比如虚拟内存的配置过小会导致outofmemory,系统的nproc和nofile设置,还有环境变量设置,特别是众多的hadoop+hi
2013-11-07 23:33:07 624
转载 hbase hbck工具
-fix Try to fix region assignments. This is for backwards compatiblity-fixAssignments Try to fix region assignments. Replaces the old -fix-fixMeta Try to fix meta problems. This assumes HDFS regio
2013-11-07 23:16:46 717
原创 支持Ajax的网页爬虫技术
普通web网站的信息,用下载URL的HTML源代码就能满足基本需求,但是当今的使用web2.0技术的网站比较多,像一些电商网站、SNS网站等,在抓取网页的部分信息时,比如评论等,直接下载HTML源代码,就满足不了需求,需要定制出很多的ajax规则,通过多次请求来完成一个页面的信息收集。在这个情况下,爬虫的代码定制就比较复杂,开发和维护的难度增加。 找了一些支持ajax抓取的开源工具比如 Cr
2013-10-23 13:18:18 1533
原创 SQL 动态行变列转换
在SQL中有一类需求,需要行遍列。 通用的方法是用 case when语句,但是如果行很多,或者行不定时,或者指标列很多,这种方法就无法适应。case when只适应于静态的行变列转换。 Pivot方法能够同动态行变列,但还是有个缺点,只能出一个指标,比如demo的只有分数一个指标,假如还有多个指标的话,需要多个SQL拼接也倒是可行。 问题:对于动态的转换有一个相对
2013-07-25 17:30:49 615
原创 列举某进程打开的文件列表
unsigned long needed; DWORD size; SYSTEM_HANDLE shandle; HMODULE module = LoadLibraryW(L"Ntdll.dll"); NtQuerySystemInformation = (QuerySystemInformation)GetProcAddress(module, "NtQuery
2012-12-18 17:08:12 832
原创 SSAS DistinctCount 聚合方式
SSAS在设计多维数据集时,有些场合需要使用到DistinctCount聚合指标,但又不希望单独放在度量值组时,与其它度量值在同一个组内,需要注意的是: 必须放在该组的最后一个。否则值会出错。
2012-11-13 14:23:43 706
原创 Sql server c#扩展存储过程支持并行多线程运算
最近遇到一个数据库存储过程多线程运算的问题,按照常规的做法,是写一个程序,在程序内多线程执行业务逻辑,这样做也不是不可以,但有以下不便: 1.开发周期长,在存储过程中实现的业务逻辑,在程序里实现一遍,要周期更长,维护更不便利。 2.原有的整体的业务逻辑是爱存储过程中实现,只有某一个业务节点需要多线程并行运算,如果该节点改为程序运行,业务节点间的衔接就没那么自然了。
2012-04-18 15:38:16 2632 4
原创 ICE VS2010 C++ DLL 版本
用VS2010 C++ 编译含有调用ICE 的代码时,遇到一个问题,编译后的程序启动失败,通过Depends发现调用的是MSVCR90.dll; 在ICE的目录下,居然有2个版本的DLL,VC2010是用C:\Program Files\ZeroC\Ice-3.4.2\bin\vc100 下版本的DLL,真是坑爹啊!
2012-03-16 15:27:03 921 1
原创 修复 http 503 服务不可用
http 503 错误:因暂时超载或临时维护,您的 Web 服务器目前无法处理 HTTP 请求。 首先要找到造成503瓶颈的根本原因,有可能在数据库、有可能是在磁盘IO、有可能是网络连接数超过了处理能力。 在性能监视器中,web service > Current Connections 连接数在20000+,而数据库连接和磁盘的IO都在合理范围之内,所以,基本上就是连
2012-02-16 12:19:34 2643
原创 备忘录-MDX性能差异
MDX片段:non empty[D_PanelsFilter].[Panel ID].children*[D_Site].[Site_ID].childrenon 1与non emptyfilter([D_PanelsFilter].[Panel ID].children*[D_Site].[Site_ID].children,xxxindex>0)on 1
2012-02-10 18:28:10 340
转载 sql datetime<->time_t 转换
sql语句 datetime 转换 (1970年) 秒数 sqlserver很多C++的程序员都保留喜欢使用time_t的习惯,更坏的是,有时还会直接把这个time_t存进数据库.......直接把tb中的thetimecol转换为时间select cast((cast(thetimecol as float)+28800)/86400+25567 as datet
2012-01-13 17:12:09 1256
转载 HIVE 结构
HIVE 主要分为以下几个部分:用户接口,包括 CLI,Client,WUI。元数据存储,通常是存储在关系数据库如 mysql, derby 中。解释器、编译器、优化器、执行器。Hadoop:用 HDFS 进行存储,利用 MapReduce 进行计算。用户接口主要有三个:CLI,Client 和 WUI。其中最常用的是 CLI,Cli 启动的时候
2012-01-11 14:10:19 458
原创 HADOOP 磁盘满
由于hadoop集群的机器磁盘容量大小不等,造成磁盘使用率不同,有的使用了10%,而有的已经100%,这个对整个系统的运行是有问题的。 暂时还没有找到控制磁盘使用率的参数,可以通过hadoop命令行来手动调节磁盘的使用情况。 > hadoop balancer -Threshold 20 或者 sh $HADOOP_HOME/bin/start-balancer.sh –t
2012-01-11 11:35:17 2155
转载 HTML-> IServiceProvider
问题: 在使用Active Accessibility SDK的过程中,我从某个窗口的句柄来获得IHTMLDocument2指针。有没有什么方法可以从IHTMLDocument2指针来获得IWebBrowser2指针?我用QueryInterface在两个接口(IHTMLDocument2 和 IWebBrowser2)上试过,但没有成功。我也用网景(Netscape)的
2012-01-10 12:11:13 1723
转载 IWebBrowser 完整缩略图
最近在写程序的时候,突然觉得google chrome的网页缩略照片挺好玩 , 可是 chrome 是自己的内核, 自家的东西当然方便.WebBrowser 又怎么办? 首先想到的是最普通的屏幕复制, 也就是大家熟知的bitblt, 从WebBrowser的dc复制到bitmap的dc. 这种方法有很大的局限性: 1.要正确复制,必须保证WebBrowser在屏幕复制的时候必须处
2012-01-09 18:36:57 885
转载 HIVE Service自动启动
1. 将hive 的metastore用mysql连接储存2 在/etc/init.d/文件夹中编辑文件hive-thrift#!/bin/bash# init script for Hive Thrift Interface.## chkconfig: 2345 90 10# description: Hive Thrift Interface# Sour
2011-12-11 20:31:50 1965
原创 HIVE与GB2312字符集
HIVE 的Driver类在处理字符串时,是按照UTF-8来处理,但是HIVE的JDBC确没有强制按照UTF-8来处理,所以会发生中文字符无论是UTF8还是GB2312都会在JDBC查询时,都不能正确输出。 在Linux下Java的FileWriter默认是UTF8来写文件的,所以通过HIVE导入到HADOOP后,也是UTF-8的格式,如果依照之前(http://blog.csdn.net
2011-11-17 14:57:02 2308
原创 HIVE打补丁 编译Hive
HIVE使用过程中发现对中文的支持很糟,通过JDBC连接HIVE,查询到的数据中,如果包含了中文字符(不管是GB2312还是UTF-8)一律显示乱码,识别不出来,转码也没有办法解决,因为在jdbc驱动里获取数据时,已经将原始的二进制改变了,数据的始终是错误的字符串。 在网上查了下,有人提出了HIVE 2137的补丁(https://issues.apache.org/jira/browse
2011-11-16 17:47:42 3249 1
转载 Ubuntu server 支持中文
有需要给Ubuntu Server装中文环境的往这看,该加sudo的自己加去,俺是root...1、安装中文语言包apt-get install language-pack-zh2、用vim配置语言环境变量vim /etc/environment在下面添加如下两行LANG=”zh_CN.UTF-8″LANGUAGE=”
2011-11-16 10:36:07 1354
转载 java 通过jdbc驱动连接hive操作实例
1,hive首先要起动远程服务接口,命令:# ./hive --service hiveserver >/dev/null 2>/dev/null & 默认开发10000端口在个别机器上,运行 ./hive --service hiveserver 会启动卡住。 2.java工程中导入相应的需求jar包,列表如下:antlr-runtime-3
2011-11-13 11:46:05 1756
转载 Hive Partitioned & Index
hive特性:数据存储在hdfs上,依托hadoop集群实现并行计算,采用hiveQL作为查询语言,与SQL极其相似,Hive中存储的数据无固定格式要求,可随用户自定义可追加数据,但不支持更改,可扩展性强,支持大规模并行计算。Create table xxxData(VStart string,VEnd string......)partitioned by (PID int,
2011-11-12 16:02:25 1127
转载 Java Run As Service in Linux
使用Java Service Wrapper将java程序作为linux服务并且开机自动启动 以java应用程序为例,打包为tianlong.jar,程序入口为tianlong.QueueTest。 下面在linux的/opt下建立tianlong目录,复制tianlong.jar到/opt/tianlong/lib目录下。 1、下载Java Service Wrapper(请
2011-11-11 18:12:36 1026
MBA分析案例 北大MBA分析案例库.doc
2008-09-17
金字塔式写作原理tops
2008-09-17
金字塔式写作原理(上)
2008-09-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人