2016年05月_eric509

原创 float的存储方式

float和double的范围是由指数的位数来决定的。float的指数位有8位，而double的指数位有11位，分布如下：float： 1bit（符号位）8bits（指数位）23bits（尾数位）double： 1bit（符号位）11bits（指数位）52bits（尾数位）浮点型变量在...

2016-05-27 15:36:03 320

原创 Levenshtein 自动机（拼音纠错）

原文：http://blog.jobbole.com/80659/ 在上一期的超酷算法中，我们聊到了BK树，这是一种非常聪明的索引结构，能够在搜索过程中进行模糊匹配，它基于编辑距离（Levenshtein distance），或者任何其它服从三角不等式的度量标准。今天，我将继续介绍另一种方法，它能够在常规索引中进行模糊匹配搜索，我们将它称之为 Levenshtein自动机。简介...

2016-05-26 15:13:42 1116

原创 BK-Tree算法（模糊匹配）

转自：http://www.matrix67.com/blog/archives/333除了字符串匹配、查找回文串、查找重复子串等经典问题以外，日常生活中我们还会遇到其它一些怪异的字符串问题。比如，有时我们需要知道给定的两个字符串“有多像”，换句话说两个字符串的相似度是多少。1965年，俄国科学家VladimirLevenshtein给字符串相似度做出了一个明确的定义叫做Levensh...

2016-05-26 15:10:40 1764

原创 Kafka+Storm+HDFS整合实践

原文地址：http://shiyanjun.cn/archives/934.html 在基于Hadoop平台的很多应用场景中，我们需要对数据进行离线和实时分析，离线分析可以很容易地借助于Hive来实现统计分析，但是对于实时的需求Hive就不合适了。实时应用场景可以使用Storm，它是一个实时处理系统，它为实时处理类应用提供了一个计算模型，可以很容易地进行编程处理。为了统一离线和实时计...

2016-05-09 17:21:24 112

原创一种基于Lucene的实时搜索方案

原文：http://www.tuicool.com/articles/NZ7v6b背景阿里集团各大业务快速发展过程中都对搜索服务很多刚性的需要，而这样的搜索需求有着非常明显的特征：快速支持、低成本、实时性和稳定性。快速支持：业务需求急迫、需要一周甚至几天内完成索引服务搭建、测试、上线环节。低成本：搜索需求方要求接入便捷，低成本的机器和运维成本。实时性：搜...

2016-05-06 18:35:41 177

原创 boost 编译及使用

原文http://www.cnblogs.com/zhcncn/p/3950477.htmlboost 1.56.0 编译及使用boost的编译和使用，经过搜集资料和总结，记录成文。感谢文后所列参考资料的作者。1 下载地址：http://sourceforge.net/projects/boost/files/boost/1.56.0/可以选择 boost_1_56_0...

2016-05-03 11:45:48 164

eric的学习笔记

原创 float的存储方式

原创 Levenshtein 自动机（拼音纠错）

原创 BK-Tree算法（模糊匹配）

原创 Kafka+Storm+HDFS整合实践

原创一种基于Lucene的实时搜索方案

原创 boost 编译及使用

空空如也

空空如也

原创 float的存储方式

原创 Levenshtein 自动机（拼音纠错）

原创 BK-Tree算法（模糊匹配）

原创 Kafka+Storm+HDFS整合实践

原创 一种基于Lucene的实时搜索方案

原创 boost 编译及使用

空空如也

空空如也

原创一种基于Lucene的实时搜索方案