2013年11月_wangzhun0129

原创 Hive+UDAF简单示例

在之前的一篇博文中,演示了一个使用通用UDTF来计算总分的小示例,下面用UDAF来做这个工作。 1.编写UDAF。 package com.wz.udf;import org.apache.hadoop.hive.ql.exec.UDAF;import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;impor

2013-11-28 16:47:48 2820

原创 Hive+UDTF简单示例

UDTF(User-Defined Table-Generating Functions) 用来解决输入一行输出多行(On-to-many maping) 的需求。我们来看一个简单的例子。现在有一个名为studentScore.txt的文本,里面的内容如下： A 90

2013-11-27 17:34:30 1312

转载 hive随谈(hive操作create，alter等)

转载自:http://www.cnblogs.com/tangtianfly/archive/2012/06/29/2569944.htmlHive 的官方文档中对查询语言有了很详细的描述，请参考：http://wiki.apache.org/hadoop/Hive/LanguageManual ，本文的内容大部分翻译自该页面，期间加入了一些在使用过程中需要注意到的事项。Create

2013-11-25 17:03:00 504

原创 boost中dijkstra算法简单示例

我们经常用dijkstra算法来计算最短路径,其原理可以参考http://en.wikipedia.org/wiki/Dijkstra%27s_algorithm. boost库也提供了它的实现,我们就以上图为准,利用boost库中dijkstra算法对其做一个简单的实现: #include #include#includet

2013-11-22 15:10:43 1781

原创 boost字符串匹配算法简单示例

字符串匹配算法常见的主要有KMP算法及Boyer-Moore算法,其原理详见: KMP:http://www.ruanyifeng.com/blog/2013/05/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm.html Boyer-Moore:http://www.ruanyifeng.c

2013-11-21 16:00:41 1365

转载 vs2008编译boost

转载自:http://blog.chinaunix.net/uid-22301538-id-3158997.html【一、Boost库的介绍】Boost库是一个经过千锤百炼、可移植、提供源代码的C++库，作为标准库的后备，是C++标准化进程的发动机之一。Boost库由C++标准委员会库工作组成员发起，其中有些内容有望成为下一代C++标准库内容。在C++社区中影响甚大，其成员已近2000

2013-11-19 14:34:09 729

原创一个socket编程的简单示例

1.什么是socket 所谓socket通常也称作"套接字"，应用程序通常通过"套接字"向网络发出请求或者应答网络请求。以J2SDK-1.3为例，Socket和ServerSocket类库位于java .net包中。ServerSocket用于服务器端，Socket是建立网络连接时使用的。在连接成功时，应用程序两端都会产生一个Socket实例，操作这个实例，完成所需的会话。

2013-11-15 15:20:18 479

原创序列化和反序列化

在进行数据处理过程中,通常可能存在多个步骤,每个步骤都会产生一种新的中间数据格式,通常我们会将这些中间数据序列化后保存至缓存文件中,在后续步骤中再反序列化之拿来使用,这样使得数据的处理更加有层次感. 1.c++中的序列化和反序列化通常我们都采用重载CObject类的Serialize方法结合CArchive类来实现. 1)创

2013-11-13 13:59:25 453

转载 B树、B-树、B+树、B*树

B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； 2.所有结点存储一个关键字； 3.非叶子结点的左指针指向小于其关键字的子树，右指针指向大于其关键字的子树；如： B树的搜索，从根结点开始，如果查询的关键字与结点的关

2013-11-13 10:29:24 360

转载 Java中数据库连接池原理机制的详细讲解

连接池的基本工作原理　　1、基本概念及原理　　由上面的分析可以看出，问题的根源就在于对数据库连接资源的低效管理。我们知道，对于共享资源，有一个很著名的设计模式：资源池(ResourcePool)。该模式正是为了解决资源的频繁分配?释放所造成的问题。为解决上述问题，可以采用数据库连接池技术。数据库连接池的基本思想就是为数据库连接建立一个“缓冲池”。预先在缓冲池中放入一定数量的连接，当需要建立

2013-11-12 09:24:54 489

原创用内存映射文件的方式读取大文件

MongoDB使用内存映射文件的方式来实现对数据库文件的快速操作.在实际的工作中,也经常用到内存映射文件的方式来读取大文件. 内存映射文件是磁盘文件的全部或部分内容与虚拟地址空间的某个区域建立关联,可以对被映射的文件进行直接访问,而不必执行文件I/O操作也无需对文件内容进行缓存处理. 下面就是c#使用内存映射文件方式读取文件的代码.

2013-11-11 10:51:08 1106

原创 SQLServer遍历表----慎用游标

在编写存储过程的时候,通常都会碰到需要遍历表的情况,这个是时候最好选择临时表的方法,而不是使用游标,如果数据量很大,慎用游标. 现在有一个名为POI的表,里面大概存储有250万的POI记录. 使用游标遍历的存储过程代码如下: declare myCursor cursor for select MESHID,POIID from PO

2013-11-08 16:38:42 2351

原创导航数据的主要内容

车载导航数据通常主要包含以下内容: 1.基本地图显示数据,主要在导航仪上显示地图使用(如下图所示),包括以下三个类型: a.路网数据,包括高速道路,国道,省道,县道,乡村街道及城市道路等. b.背景数据,包括公园,绿地,河海还有铁路等. c.名称数据,包括道路名称,兴趣点名称等

2013-11-07 15:17:12 3588

转载 mongodb运维手册:备份

mongodb的持久化1.mongodb的设计理念是不依赖单机可靠性,靠复制集(replication set)的其他节点来实现高可用,当然,启用了Journaling日志后,mongodb的单机可靠性有了一定增加.mongodb的应用,数据往往没那么重要,一般丢失一点数据并没有什么关系,所以宕机后,mongodb会优先切换到其他节点. 而传统数据库的策略往往是先进行crash recov

2013-11-07 10:44:58 1549

原创 MongoDB学习之七----数据导入和导出

对于一个数据库而言,导入外部数据和将数据库数据导出是一项非常重要的功能. MongoDB提供了MongoImport和MongoExport来实现数据的导入和导出. 1.导入数据 MongoImport支持导入csv和json两种格式的外部数据,下面以csv为例: a.启动一个mongod

2013-11-06 17:36:03 2250

原创 MongoDB学习之六----map/reduce

MongoDB也提供了map/reduce方法来对数据进行聚合分析.和hadoop中的map/reduce的原理一样,map主要对收录的数据进行遍历,并输出一序列的键值对,reduce对从map输出的结果进行聚合分析并输出. ok,下面以一个简单的wordCount程序做实验吧. 1.插入测试数据 use test u

2013-11-05 11:14:18 721

原创 MongoDB学习之五----空间操作

MongoDB采用geoJson格式来存储常见的点,线,面的几何信息. 点:db.points.insert({"pt":{type:"Point",coordinates:[10,10]}}) 线:db.lines.insert({"ln":{type:"LineString",coordinates:[[10,10],[20,20]]}}) 面:db.pol

2013-11-04 15:38:50 721

原创 MongoDB学习之四----文本索引的简单使用

为了提高查询的效率,MongoDB也提供了索引(和关系数据库的索引一样,采用B-Tree存储),主要有单个字段索引,组合索引,多键索引(用于数组查询),空间索引,文本索引及哈希索引. 自从版本2.4以后,MongoDB提供了文本索引,下面来看看如何使用. 1.启动单个Mongod,注意要设置textSearchEnabled的值 m

2013-11-01 16:40:22 1223

wangzhun0129的专栏