自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 资源 (6)
  • 收藏
  • 关注

原创 Hadoop 2.0 + hive + hbase 安装手记

在Centos6.2部署Hadoop2.0+HIVE+HBASE,相比之前的老版本,新版本的安装还是要更繁琐一些,具体表现在要从众多的配置文件里找出关键的配置项,配置合理的值。  这里有2个难题,第一个是找出关键配置项实在是件费力的事情,有的是操作系统的配置,比如虚拟内存的配置过小会导致outofmemory,系统的nproc和nofile设置,还有环境变量设置,特别是众多的hadoop+hi

2013-11-07 23:33:07 624

转载 hbase hbck工具

-fix Try to fix region assignments. This is for backwards compatiblity-fixAssignments Try to fix region assignments. Replaces the old -fix-fixMeta Try to fix meta problems. This assumes HDFS regio

2013-11-07 23:16:46 717

原创 支持Ajax的网页爬虫技术

普通web网站的信息,用下载URL的HTML源代码就能满足基本需求,但是当今的使用web2.0技术的网站比较多,像一些电商网站、SNS网站等,在抓取网页的部分信息时,比如评论等,直接下载HTML源代码,就满足不了需求,需要定制出很多的ajax规则,通过多次请求来完成一个页面的信息收集。在这个情况下,爬虫的代码定制就比较复杂,开发和维护的难度增加。  找了一些支持ajax抓取的开源工具比如 Cr

2013-10-23 13:18:18 1533

原创 SQL 动态行变列转换

在SQL中有一类需求,需要行遍列。   通用的方法是用 case when语句,但是如果行很多,或者行不定时,或者指标列很多,这种方法就无法适应。case when只适应于静态的行变列转换。   Pivot方法能够同动态行变列,但还是有个缺点,只能出一个指标,比如demo的只有分数一个指标,假如还有多个指标的话,需要多个SQL拼接也倒是可行。   问题:对于动态的转换有一个相对

2013-07-25 17:30:49 615

原创 列举某进程打开的文件列表

unsigned long needed; DWORD size; SYSTEM_HANDLE shandle; HMODULE module = LoadLibraryW(L"Ntdll.dll"); NtQuerySystemInformation = (QuerySystemInformation)GetProcAddress(module, "NtQuery

2012-12-18 17:08:12 832

原创 SSAS DistinctCount 聚合方式

SSAS在设计多维数据集时,有些场合需要使用到DistinctCount聚合指标,但又不希望单独放在度量值组时,与其它度量值在同一个组内,需要注意的是:   必须放在该组的最后一个。否则值会出错。

2012-11-13 14:23:43 706

原创 Sql server c#扩展存储过程支持并行多线程运算

最近遇到一个数据库存储过程多线程运算的问题,按照常规的做法,是写一个程序,在程序内多线程执行业务逻辑,这样做也不是不可以,但有以下不便:      1.开发周期长,在存储过程中实现的业务逻辑,在程序里实现一遍,要周期更长,维护更不便利。      2.原有的整体的业务逻辑是爱存储过程中实现,只有某一个业务节点需要多线程并行运算,如果该节点改为程序运行,业务节点间的衔接就没那么自然了。

2012-04-18 15:38:16 2632 4

原创 ICE VS2010 C++ DLL 版本

用VS2010 C++ 编译含有调用ICE 的代码时,遇到一个问题,编译后的程序启动失败,通过Depends发现调用的是MSVCR90.dll;   在ICE的目录下,居然有2个版本的DLL,VC2010是用C:\Program Files\ZeroC\Ice-3.4.2\bin\vc100 下版本的DLL,真是坑爹啊!

2012-03-16 15:27:03 921 1

原创 修复 http 503 服务不可用

http 503 错误:因暂时超载或临时维护,您的 Web 服务器目前无法处理 HTTP 请求。     首先要找到造成503瓶颈的根本原因,有可能在数据库、有可能是在磁盘IO、有可能是网络连接数超过了处理能力。     在性能监视器中,web service >  Current Connections  连接数在20000+,而数据库连接和磁盘的IO都在合理范围之内,所以,基本上就是连

2012-02-16 12:19:34 2643

原创 备忘录-MDX性能差异

MDX片段:non empty[D_PanelsFilter].[Panel ID].children*[D_Site].[Site_ID].childrenon 1与non emptyfilter([D_PanelsFilter].[Panel ID].children*[D_Site].[Site_ID].children,xxxindex>0)on 1

2012-02-10 18:28:10 340

转载 sql datetime<->time_t 转换

sql语句 datetime 转换 (1970年) 秒数 sqlserver很多C++的程序员都保留喜欢使用time_t的习惯,更坏的是,有时还会直接把这个time_t存进数据库.......直接把tb中的thetimecol转换为时间select cast((cast(thetimecol as float)+28800)/86400+25567 as datet

2012-01-13 17:12:09 1256

转载 HIVE 结构

HIVE 主要分为以下几个部分:用户接口,包括 CLI,Client,WUI。元数据存储,通常是存储在关系数据库如 mysql, derby 中。解释器、编译器、优化器、执行器。Hadoop:用 HDFS 进行存储,利用 MapReduce 进行计算。用户接口主要有三个:CLI,Client 和 WUI。其中最常用的是 CLI,Cli 启动的时候

2012-01-11 14:10:19 458

原创 HADOOP 磁盘满

由于hadoop集群的机器磁盘容量大小不等,造成磁盘使用率不同,有的使用了10%,而有的已经100%,这个对整个系统的运行是有问题的。  暂时还没有找到控制磁盘使用率的参数,可以通过hadoop命令行来手动调节磁盘的使用情况。  > hadoop  balancer -Threshold 20   或者 sh $HADOOP_HOME/bin/start-balancer.sh –t

2012-01-11 11:35:17 2155

转载 HTML-> IServiceProvider

问题:       在使用Active Accessibility SDK的过程中,我从某个窗口的句柄来获得IHTMLDocument2指针。有没有什么方法可以从IHTMLDocument2指针来获得IWebBrowser2指针?我用QueryInterface在两个接口(IHTMLDocument2 和 IWebBrowser2)上试过,但没有成功。我也用网景(Netscape)的

2012-01-10 12:11:13 1723

转载 IWebBrowser 完整缩略图

最近在写程序的时候,突然觉得google chrome的网页缩略照片挺好玩 ,  可是 chrome 是自己的内核, 自家的东西当然方便.WebBrowser 又怎么办?     首先想到的是最普通的屏幕复制, 也就是大家熟知的bitblt, 从WebBrowser的dc复制到bitmap的dc. 这种方法有很大的局限性: 1.要正确复制,必须保证WebBrowser在屏幕复制的时候必须处

2012-01-09 18:36:57 885

转载 HIVE Service自动启动

1.  将hive 的metastore用mysql连接储存2  在/etc/init.d/文件夹中编辑文件hive-thrift#!/bin/bash# init script for Hive Thrift Interface.## chkconfig: 2345 90 10# description: Hive Thrift Interface# Sour

2011-12-11 20:31:50 1965

原创 HIVE与GB2312字符集

HIVE 的Driver类在处理字符串时,是按照UTF-8来处理,但是HIVE的JDBC确没有强制按照UTF-8来处理,所以会发生中文字符无论是UTF8还是GB2312都会在JDBC查询时,都不能正确输出。   在Linux下Java的FileWriter默认是UTF8来写文件的,所以通过HIVE导入到HADOOP后,也是UTF-8的格式,如果依照之前(http://blog.csdn.net

2011-11-17 14:57:02 2308

原创 HIVE打补丁 编译Hive

HIVE使用过程中发现对中文的支持很糟,通过JDBC连接HIVE,查询到的数据中,如果包含了中文字符(不管是GB2312还是UTF-8)一律显示乱码,识别不出来,转码也没有办法解决,因为在jdbc驱动里获取数据时,已经将原始的二进制改变了,数据的始终是错误的字符串。   在网上查了下,有人提出了HIVE 2137的补丁(https://issues.apache.org/jira/browse

2011-11-16 17:47:42 3249 1

转载 Ubuntu server 支持中文

有需要给Ubuntu Server装中文环境的往这看,该加sudo的自己加去,俺是root...1、安装中文语言包apt-get install language-pack-zh2、用vim配置语言环境变量vim /etc/environment在下面添加如下两行LANG=”zh_CN.UTF-8″LANGUAGE=”

2011-11-16 10:36:07 1354

转载 java 通过jdbc驱动连接hive操作实例

1,hive首先要起动远程服务接口,命令:# ./hive --service hiveserver >/dev/null 2>/dev/null & 默认开发10000端口在个别机器上,运行 ./hive --service hiveserver  会启动卡住。 2.java工程中导入相应的需求jar包,列表如下:antlr-runtime-3

2011-11-13 11:46:05 1756

转载 Hive Partitioned & Index

hive特性:数据存储在hdfs上,依托hadoop集群实现并行计算,采用hiveQL作为查询语言,与SQL极其相似,Hive中存储的数据无固定格式要求,可随用户自定义可追加数据,但不支持更改,可扩展性强,支持大规模并行计算。Create table xxxData(VStart string,VEnd string......)partitioned by (PID int,

2011-11-12 16:02:25 1127

转载 Java Run As Service in Linux

使用Java Service Wrapper将java程序作为linux服务并且开机自动启动 以java应用程序为例,打包为tianlong.jar,程序入口为tianlong.QueueTest。 下面在linux的/opt下建立tianlong目录,复制tianlong.jar到/opt/tianlong/lib目录下。 1、下载Java Service Wrapper(请

2011-11-11 18:12:36 1026

Hadoop flume优化

品友互动-Hadoop的ETL任务—Flume使用及其优化

2013-11-15

MBA分析案例 北大MBA分析案例库.doc

北大MBA分析案例库.doc 北大MBA管理学案例库.doc 北大MBA会计学案例库.doc 北大MBA统计学案例库.doc 北大MBA原文案例库.doc

2008-09-17

金字塔式写作原理tops

tops Writing Backwards -- The Pyramid 从 结 论 说 起 The Governing Thought (TOPS) 中 心 思 想 Logical Arguments 逻 辑 论 证 Logical Groupings 逻 辑 组 合 No Gaps, No Overlaps (MECE) 不 遗 漏 、 不 重 叠 ( 不 多 不 少)

2008-09-17

金字塔式写作原理(上)

Writing Backwards -- The Pyramid 从 结 论 说 起 The Governing Thought (TOPS) 中 心 思 想 Logical Arguments 逻 辑 论 证 Logical Groupings 逻 辑 组 合 No Gaps, No Overlaps (MECE) 不 遗 漏 、 不 重 叠 ( 不 多 不 少)

2008-09-17

python 参考 第二版

python 精要 参考 第二版 python 快速入门,语法及代码约定,类型和对象, 运算符和对象,控制流,函数与函数编程

2008-09-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除