2016年07月_编程小问号

转载 Erasure Code

xp的分布式系统系列教程之: Erasure Code: 介绍, 数学原理, 实践.问题: 分布式系统中通过数据冗余保证可靠性.多副本副本数一般是3d1, d1, d1 d2, d2, d2 ...冗余度是 300% // 空间浪费200%能否用较少的冗余, 来实现较高的可靠性?可否多存储一个数字, 使得整个系统在丢失任何一个数字的时

2016-07-30 23:32:34 626

转载七牛的存储算法猜测

个人浏览网页的时候，有打标签的习惯。最近整理以往的标签的时候，发现积累了一些有关七牛公司存储策略的网页，遂决定整理一篇文章处理，以备记忆。当然，也希望对他人有用。因为七牛公司的存储策略主要基于纠删码(Erasure Codes,EC)，所以下面先从纠删码引申开来。引言：何为纠删码数据的爆炸式增长使得存储系统的规模不断增加，存储设备的可靠性却一直没有得到显著提高（SSD 从S

2016-07-30 23:26:56 558

转载跳跃表 Skip List

最近在学习redis，这时才知道了skip list，结合Mit 算法导论 lecture 12，在奋斗了2个早上的时间后有了下面的东东。对于我们熟悉的binary search来说，我们需要能够做到random access才行。但是在普通的link这种数据结构中却不能做到。而这种情况下我们有很多类似的工具比如heap，tree，b tree，red－black tree。等等类

2016-07-26 17:41:00 474

转载浅析SkipList跳跃表原理及代码实现

转载请注明：http://blog.csdn.net/ict2014/article/details/17394259SkipList在leveldb以及lucence中都广为使用，是比较高效的数据结构。由于它的代码以及原理实现的简单性，更为人们所接受。我们首先看看SkipList的定义，为什么叫跳跃表？“ Skip lists are data structures

2016-07-26 17:10:32 557

转载字符串匹配的KMP算法

作者：阮一峰日期： 2013年5月 1日字符串匹配是计算机的基本任务之一。举例来说，有一个字符串"BBC ABCDAB ABCDABCDABDE"，我想知道，里面是否包含另一个字符串"ABCDABD"？许多算法可以完成这个任务，Knuth-Morris-Pratt算法（简称KMP）是最常用的之一。它以三个发明者命名，起头的那个K就是著名科学家Don

2016-07-26 13:51:18 403

转载字符串匹配的Boyer-Moore算法

作者：阮一峰日期： 2013年5月 3日上一篇文章，我介绍了KMP算法。但是，它并不是效率最高的算法，实际采用并不多。各种文本编辑器的"查找"功能（Ctrl+F），大多采用Boyer-Moore算法。Boyer-Moore算法不仅效率高，而且构思巧妙，容易理解。1977年，德克萨斯大学的Robert S. Boyer教授和J Strother Mo

2016-07-26 13:33:12 378

转载最短摘要的生成

你我在百度或谷歌搜索框中敲入本博客名称的前4个字“结构之法”，便能在第一个选项看到本博客的链接，如下图2所示：图2 谷歌中搜索关键字“结构之法”在上面所示的图2中，搜索结果“结构之法算法之道-博客频道-CSDN.NET”下有一段说明性的文字：“程序员面试、算法研究、编程艺术、红黑树4大经典原创系列集锦与总结作者：July--结构之法算法...”，我们把这段文字称为那个搜索

2016-07-26 11:25:42 700

转载 MySQL索引背后的数据结构及算法原理

摘要本文以MySQL数据库为研究对象，讨论与数据库索引相关的一些话题。特别需要说明的是，MySQL支持诸多存储引擎，而各种存储引擎对索引的支持也各不相同，因此MySQL数据库支持多种索引类型，如BTree索引，哈希索引，全文索引等等。为了避免混乱，本文将只关注于BTree索引，因为这是平常使用MySQL时主要打交道的索引，至于哈希索引和全文索引本文暂不讨论。文章主要内容分为三个部分

2016-07-24 00:43:11 670

转载通过金矿模型介绍动态规划

对于动态规划，每个刚接触的人都需要一段时间来理解，特别是第一次接触的时候总是想不通为什么这种方法可行，这篇文章就是为了帮助大家理解动态规划，并通过讲解基本的01背包问题来引导读者如何去思考动态规划。本文力求通俗易懂，无异性，不让读者感到迷惑，引导读者去思考，所以如果你在阅读中发现有不通顺的地方，让你产生错误理解的地方，让你难得读懂的地方，请跟贴指出，谢谢！ ----第一节

2016-07-23 17:02:51 369

转载数据结构和算法系列17 图

数据结构和算法系列17 图阅读目录一，图的定义二，图相关的概念和术语三，图的创建和遍历四，最小生成树和最短路径五，算法实现这一篇我们要总结的是图(Graph)，图可能比我们之前学习的线性结构和树形结构都要复杂，不过没有关系，我们一点一点地来总结，那么关于图我想从以下几点进行总结：1，图的定义？2，图相关的概念和术语？3，图的创建和遍历？4，最

2016-07-22 18:07:18 508

转载 Recall（召回率） Precision（准确率） F-Measure E值 sensitivity（灵敏性） specificity（特异性）漏诊率误诊率 ROC AUC

Recall（召回率） Precision（准确率） F-Measure E值 sensitivity（灵敏性） specificity（特异性）漏诊率误诊率 ROC AUC信息检索、分类、识别、翻译等领域两个最基本指标是召回率(Recall Rate)=系统检索到的相关文件 / 系统所有相关的文件总数，衡量的是检索系统的查全率。准确率(Precision Rate)=系

2016-07-12 11:07:51 16589

转载机器学习算法常用指标总结

阅读目录1. TPR、FPR&TNR2. 精确率Precision、召回率Recall和F1值3. 综合评价指标F-measure4. ROC曲线和AUC考虑一个二分问题，即将实例分成正类（positive）或负类（negative）。对一个二分问题来说，会出现四种情况。如果一个实例是正类并且也被预测成正类，即为真正类（True positiv

2016-07-12 11:06:53 4456

转载 C++临时对象（1）

C++ 是一门以效率见长的语言（虽然近来越来越多的人“不齿”谈及效率，我深以为不然，在某一次的程序编写中不对效率锱铢必较并不意味意味着我们就不应该追求更多的更好的做法）。总之吧，相比起其它语言，程序员们在使 C++ 的时候会更加有意识地去避免没有效率的做法。在C++ 的程序中，临时对象的产生就是损及效率的“恶因”之一，因此也产生出一些意思的技术和优化手段，这篇文章里我总结一下最近在这些方面学习的

2016-07-10 00:55:15 705

转载快速了解C/C++的左值和右值

最近在segmentfault上看到一个提问《c++隐式的类类型转换问题》：一时不知怎么回答，查阅相关资料后整理了本文，以供参考学习。定义早期的C给出的定义：左值是一个表达式，可能出现在赋值操作的左边或右边，但右值只能出现在右边。比如：a * b = 42; // 编译错误，说明 a * b 不是左值因为上面的定义实在太模糊，导致左值和右值很难被理解，下面给出的定义，更简单更

2016-07-10 00:02:37 346

转载算法&模型

在行业设备大数据平台建设中，势必要用到大数据技术，而大数据技术中，机器学习与数据挖掘算法是重要的一环，我们通过这些算法与模型对设备的故障进行监控与预测，对设备技改需求进行预测，对设备采购需求进行预测以及创建各种模型与算法设备标签。下面我们对一些常用的算法与模型进行简要介绍。在进行数据挖掘时，首先要进行商业理解，即我们需要达到什么目的，解决什么问题；其次需要进行数据理解，我们需要哪些数据以

2016-07-08 18:49:37 886

转载机器学习模型评价(Evaluating Machine Learning Models)-主要概念与陷阱

机器学习模型评价(Evaluating Machine Learning Models)-主要概念与陷阱前言本文主要解释一些关于机器学习模型评价的主要概念，与评价中可能会遇到的一些陷阱。如训练集-验证集二划分校验（Hold-out validation）、交叉校验（Cross-validation）、超参数调优(hyperparameter tuning)等。这三个术语都是

2016-07-08 18:11:31 2386

转载准确率（accuracy），精确率（Precision），召回率（Recall）和综合评价指标（F1-Measure ）

自然语言处理(ML),机器学习(NLP),信息检索(IR)等领域,评估(evaluation)是一个必要的工作,而其评价指标往往有如下几点:准确率(accuracy),精确率(Precision),召回率(Recall)和F1-Measure。本文将简单介绍其中几个概念。中文中这几个评价指标翻译各有不同，所以一般情况下推荐使用英文。现在我先假定一个具体场景作为例子：

2016-07-08 17:54:40 25057 2

转载交叉验证--模型参数选择

机器学习中有监督的学习，通过标注data训练model时，通常采用交叉验证的方法选择模型参数。将有标注的data分为训练集，（交叉）验证集，测试集三份：机器学习的model中，有些模型参数是需要事先指定的，在training之前就是一个常量（与在training过程中通过minimize目标函数求得的参数不同），根据经验指定参数不一定靠谱，所以需要在training之前，做

2016-07-06 14:50:31 5992

转载模型评估笔记

模型评估是模型开发过程的不可或缺的一部分。它有助于发现表达数据的最佳模型和所选模型将来工作的性能如何。在数据挖掘中，使用训练集中的数据评估模型性能是不可接受的，因为这易于生成过于乐观和过拟合的模型。数据挖掘中有两种方法评估模型，验证（Hold-Out）和交叉验证（Cross-Validation）。为了避免过拟合，这两种方法都使用（模型没有遇到过的）测试集来评估模型性能。验证（Hold-O

2016-07-06 11:22:37 7536 2

abcd1f2的专栏