2012年12月_qll125596718

12月 11月 10月 09月 08月 07月 04月 03月 02月 01月

转载倒排索引基础

1.单词-文档矩阵通常检索的场景是：给定几个关键词，找出包含关键词的文档。怎么快速找到包含某个关键词的文档就成为搜索的关键。这里我们借助单词-文档矩阵模型，通过这个模型我们可以很方便知道某篇文档包含哪些单词，某个单词被哪些文档所包含。搜索引擎的索引其实就是实现单词-文档矩阵的具体数据结构，具体可以包括：倒排索引、签名文件、后缀树等。常见的当然

2012-12-29 10:38:38 4287 1

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。简单来说，朴素贝叶斯分类器假设样本每个特征与其他特征都不相关。举个例子，如果一种水果具有红，圆，直径大概4英寸等特征，该水果可以被判定为是苹果。尽管这些特征相互依赖或者有些特征由其他特征决定，然而朴素贝叶斯分类器认为这些属性在判定该水果是否为苹果的概率分布上独立的。尽管是带着这些朴素思想和过于简单化的假设，但朴素贝叶斯分类器在很多复杂的现实

2012-12-27 12:59:07 17925 7

原创布尔检索及其查询优化

针对布尔查询的检索，布尔查询是指利用AND，OR或者NOT操作符将词项连接起来的查询。举个简单的例子：莎士比亚的哪部剧本包含Brutus及Caesar 但是不包含Calpurnia？布尔表达式为：Brutus AND Caesar AND NOTCalpurnia。最笨的方法是线性扫描的方式：从头到尾扫描所有剧本，对每部剧本判断它是否包含Brutus和Caesar ，同时又不包

2012-12-26 02:29:40 13785 1

原创统计学习笔记（3）——k近邻法与kd树

在使用k近邻法进行分类时，对新的实例，根据其k个最近邻的训练实例的类别，通过多数表决的方式进行预测。由于k近邻模型的特征空间一般是n维实数向量，所以距离的计算通常采用的是欧式距离。关键的是k值的选取，如果k值太小就意味着整体模型变得复杂，容易发生过拟合，即如果邻近的实例点恰巧是噪声，预测就会出错，极端的情况是k=1，称为最近邻算法，对于待预测点x，与x最近的点决定了x的类别。k值得增大意味着整体的

2012-12-24 12:34:05 45782 18

原创统计学习笔记（2）——感知机模型

感知机学习旨在求出将训练数据集进行线性划分的分类超平面，为此，导入了基于误分类的损失函数，然后利用梯度下降法对损失函数进行极小化，从而求出感知机模型。感知机模型是神经网络和支持向量机的基础。下面分别从感知机学习的模型、策略和算法三个方面来介绍。1. 感知机模型感知机模型如下：f(x)= sign(w*x+b) 其中，x为输入向量，sign为符号函数，括号里

2012-12-23 12:28:29 35477 11

原创统计学习笔记（1）——统计学习方法概论

1.统计学习统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科，也称统计机器学习。统计学习是数据驱动的学科。统计学习是一门概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科。统计学习的对象是数据，它从数据出发，提取数据的特征，抽象出数据的模型，发现数据中的知识，又回到对数据的分析与预测中去。统计

2012-12-20 12:11:47 39266 9

原创文本特征提取

文本挖掘模型结构示意图1. 分词分词实例：提高人民生活水平：提高、高人、人民、民生、生活、活水、水平分词基本方法：最大匹配法、最大概率法分词、最短路径分词方法1.1 最大匹配法中文分词在中文信息处理中是最最基础的，无论机器翻译亦或信息检索还是其他相关应用，如果涉及中文，都离不开中文分词，因此中文分词具有极高的

2012-12-17 12:45:11 61083 4

原创蒙提霍尔问题

蒙提霍尔问题（Monty Hall Problem），也称三门问题，是一个源自博弈论的数学游戏问题，大致出自美国的电视游戏节目“Let's Make a Deal”。问题的名字来自该节目的主持人蒙提·霍尔（Monty Hall）。问题如下：参赛者会看见三扇关闭了的门，其中一扇的后面有一辆车。参赛者选中了其中一扇门，节目主持人会开启剩下两扇门的其中一扇，露出其中一只山羊

2012-12-03 20:57:04 4964 2

转载 c++开源机器学习库及机器学习知识框架（更新中）

1）mlpack is a C++ machine learning library.2）PLearn is a C++ library aimed at research and development in the field of statistical machine learning algorithms. Its originality is to allow to easily

2012-12-03 13:05:17 13064 1

原创一元线性回归模型与最小二乘法及其C++实现

监督学习中，如果预测的变量是离散的，我们称其为分类（如决策树，支持向量机等），如果预测的变量是连续的，我们称其为回归。回归分析中，如果只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析。对于二维空间线性是一条直线；对于三维空间线性是一个平面，对于多维空间线

2012-12-02 14:13:25 60006 16