- 博客(17)
- 资源 (6)
- 问答 (3)
- 收藏
- 关注
原创 Unary Code
Unary coding, sometimes called thermometer code, is an entropy encoding that represents a natural number n, with n ones followed by a zero (if natural number is understood as non-negative integer) or w
2017-09-28 13:27:58 1106
转载 Gamma code
Elias gamma code is a universal code encoding positive integers developed by Peter Elias. It is used most commonly when coding integers whose upper-bound cannot be determined beforehand. Encoding To
2017-09-28 13:09:23 537
转载 协方差矩阵
线性判别分析(LDA)中的协方差矩阵 我的理解: 协方差为正说明随机变量间正相关,为负说明负相关,为零说明不相关。 从协方差的公式可以看出,将所有(X-μx)*(Y-μy)相加,当二者正相关也即变化趋势一致时,乘积将为正数,反之为负数;将所有积相加后即得到二者相关
2017-09-26 15:10:46 619
原创 信息检索模型
检索模型搜索结果排序是搜索引擎的核心,排序时最重要的两个因素就是:用户查询和网页的内容相关性及网页链接情况。检索模型就是用来计算内容相关度的理论基础及核心组件。一个典型的检索模型通常由三部分组成:查询的表示、文档的表示、以及一个检索函数(基于查询和文档各自的表示,显式或隐式的估计两者相关的可能性)。 本文将概述几种常用的检索模型。
2017-09-23 10:11:28 19943
原创 回归任务偏差与方差
偏差与方差分解“偏差-方差分解”是解释学习算法泛化性能的一种重要工具。 它试图对学习算法的期望泛化错误率进行拆解。 以回归任务为例,E(f;D)泛化误差可以分解为偏差、方差、噪声之和。 偏差,度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力; 方差,度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响; 噪声,表达了在当
2017-09-21 10:37:40 1316
原创 terrier索引结构
Terrier检索平台对文档集索引后主要生成了四种索引文件,即文档索引、直接索引、词典、倒排索引,下面分别介绍这四种索引的格式。 下图是我对索引文件数据结构的总结: 文档索引(DocumentIndex) 文档索引保存在data.document.fsarrayfile文件中,存储了每个文档的信息,包括文档长度(docLength)、条目数(numEntries)和 指向相应直接索引
2017-09-20 09:29:57 697
原创 自包含
自包含是指在组件重用时不需要包含其他的可重用组件。 例如Web Service就是自包含组件,即它不需要依赖其他组件。 Web Services自包含模块化的应用程序,也就是说它本身含有,不需要依赖其他程序. 再例: 对头文件而言,就是可独立编译。如果a.h不是自包含的,需要包含b.h才能编译,那么,每个使用a.h头文件的.c文件,为了让引入的a.h的内容编译通过,都要包含额外的头文件b.h
2017-09-16 16:39:16 7535
原创 GSview
OverviewGSview is a graphical interface for Ghostscript under MS-Windows, OS/2 and Unix. Ghostscript is an interpreter for the PostScript page description language used by laser printers. For documents
2017-09-16 15:42:07 1581
原创 链接分析算法PageRank和HITS
链接分析算法PageRank和HITSPageRankPageRank是Google创始人提出的链接分析算法计算模型,可以说成就了Google公司。 PageRank考察网页时,不仅考虑到入链数量(指向本网页的其它网页数量),还参考了网页质量,两者结合得到更有效的网页重要性评价标准。 首先,数量上。本页面入链越多,越重要; 其次,质量上。指向本页面的页面质量越高,本页面越重要。 Pag
2017-09-16 08:54:54 2160
原创 [Java]线程池
Java线程池Java通过实现java.lang.Runnable来定义任务类,并创建线程: Runnable task=new TaskClass(task);new Thread(task).start(); 然而,为每个任务开始一个新线程可能会限制流量并且造成性能降低。 线程池是管理并发执行任务个数的理想方法。 Java’提供Executor接口来执行线程池中的任务,提供Execu
2017-09-12 16:53:42 263
转载 [Java]线程优先级问题
对于线程优先级,需要注意:Thread.setPriority()可能根本不做任何事情,这跟你的操作系统和虚拟机版本有关线程优先级对于不同的线程调度器可能有不同的含义,可能并不是你直观的推测。特别地,优先级并不一定是指CPU的分享。在UNIX系统,优先级或多或少可以认为是CPU的分配,但Windows不是这样线程的优先级通常是全局的和局部的优先级设定的组合。Java的setPriority()
2017-09-12 16:21:25 351
转载 贝叶斯公式推导及意义
条件概率公式设A,B是两个事件,且P(B)>0,则在事件B发生的条件下,事件A发生的条件概率(conditional probability)为: P(A|B)=P(AB)/P(B)乘法公式1.由条件概率公式得: P(AB)=P(A|B)P(B)=P(B|A)P(A) 上式即为乘法公式;2.乘法公式的推广:对于任何正整数n
2017-09-05 16:34:37 11778
转载 MarkdownPad2注册码2017.09.05测试通过
MarkdownPad2 注册码User:Soar360@live.com授权:GBPduHjWfJU1mZqcPM3BikjYKF6xKhlKIys3i1MU2eJHqWGImDHzWdD6xhMNLGVpbP2M5SN6bnxn2kSE8qHqNY5QaaRxmO3YSMHxlv2EYpjdwLcPwfeTG7kUdnhKE0vVy4RidP6Y2wZ0q74f
2017-09-05 16:28:50 4652 2
转载 哈希表
Hash表 Hash表也称散列表,也有直接译作哈希表,Hash表是一种特殊的数据结构,它同数组、链表以及二叉排序树等相比较有很明显的区别,它能够快速定位到想要查找的记录,而不是与表中存在的记录的关键字进行比较来进行查找。这个源于Hash表设计的特殊性,它采用了函数映射的思想将记录的存储位置与记录的关键字关联起来,从而能够很快速地进行查找。1.Hash表的设计思想 对于一般的线性表,比如链表,如果
2017-09-05 10:01:26 470
原创 搜索引擎索引
倒排索引帮助搜索引擎在海量网页中快速找到包含用户查询词的所有网页。一、基本概念 1.单词文档矩阵表达哪些文档包含哪些单词的概念模型。 而搜索引擎的索引就是实现单词文档矩阵的具体数据结构。倒排项(Posting)记载出现过某个单词的所有文档的文档列表及单词在该文档中的位置信息,包含某个单词的一系列倒排项就形成了列表结构,即该单词的倒排列表。
2017-09-03 17:07:15 1409
转载 TF-IDF及其算法
TF-IDF及其算法 我的补充:一种词频因子的变体计算公式是:Wtf=1+log(tf)即将词频数值tf取Log值来作为词频权值,比如单词在文档中出现4次,则其词频则其词频因子权值为3,公式中的数字1是为了平滑计算用的,因为如果tf值为1的情况下,取Log后值为0,即原本出现了一次的单词,按照此方法会认为这个单词从来没有从文档中出现过,为避免采用加1进行平滑;
2017-09-01 09:38:45 3246
PyQt4安装包
2017-06-27
Galago开源搜索引擎
2016-05-25
磁盘分区助手PA5.2_Portable
2015-06-02
概率问题为什么 0<=P(X=a|Y=b)<=P(X=a)<=1 不正确??
2017-03-28
Java中接口是Object类的子类吗?
2016-04-27
哪位来解释下GitHub 网站怎么用?
2016-04-13
TA创建的收藏夹 TA关注的收藏夹
TA关注的人