自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

zealfory

Be a geek

  • 博客(17)
  • 资源 (6)
  • 问答 (3)
  • 收藏
  • 关注

原创 Unary Code

Unary coding, sometimes called thermometer code, is an entropy encoding that represents a natural number n, with n ones followed by a zero (if natural number is understood as non-negative integer) or w

2017-09-28 13:27:58 1106

转载 Gamma code

Elias gamma code is a universal code encoding positive integers developed by Peter Elias. It is used most commonly when coding integers whose upper-bound cannot be determined beforehand. Encoding To

2017-09-28 13:09:23 537

转载 协方差矩阵

线性判别分析(LDA)中的协方差矩阵 我的理解: 协方差为正说明随机变量间正相关,为负说明负相关,为零说明不相关。 从协方差的公式可以看出,将所有(X-μx)*(Y-μy)相加,当二者正相关也即变化趋势一致时,乘积将为正数,反之为负数;将所有积相加后即得到二者相关

2017-09-26 15:10:46 619

原创 信息检索模型

检索模型搜索结果排序是搜索引擎的核心,排序时最重要的两个因素就是:用户查询和网页的内容相关性及网页链接情况。检索模型就是用来计算内容相关度的理论基础及核心组件。一个典型的检索模型通常由三部分组成:查询的表示、文档的表示、以及一个检索函数(基于查询和文档各自的表示,显式或隐式的估计两者相关的可能性)。 本文将概述几种常用的检索模型。

2017-09-23 10:11:28 19943

原创 回归任务偏差与方差

偏差与方差分解“偏差-方差分解”是解释学习算法泛化性能的一种重要工具。 它试图对学习算法的期望泛化错误率进行拆解。 以回归任务为例,E(f;D)泛化误差可以分解为偏差、方差、噪声之和。 偏差,度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力; 方差,度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响; 噪声,表达了在当

2017-09-21 10:37:40 1316

原创 terrier索引结构

Terrier检索平台对文档集索引后主要生成了四种索引文件,即文档索引、直接索引、词典、倒排索引,下面分别介绍这四种索引的格式。 下图是我对索引文件数据结构的总结: 文档索引(DocumentIndex) 文档索引保存在data.document.fsarrayfile文件中,存储了每个文档的信息,包括文档长度(docLength)、条目数(numEntries)和 指向相应直接索引

2017-09-20 09:29:57 697

原创 自包含

自包含是指在组件重用时不需要包含其他的可重用组件。 例如Web Service就是自包含组件,即它不需要依赖其他组件。 Web Services自包含模块化的应用程序,也就是说它本身含有,不需要依赖其他程序. 再例: 对头文件而言,就是可独立编译。如果a.h不是自包含的,需要包含b.h才能编译,那么,每个使用a.h头文件的.c文件,为了让引入的a.h的内容编译通过,都要包含额外的头文件b.h

2017-09-16 16:39:16 7535

原创 GSview

OverviewGSview is a graphical interface for Ghostscript under MS-Windows, OS/2 and Unix. Ghostscript is an interpreter for the PostScript page description language used by laser printers. For documents

2017-09-16 15:42:07 1581

原创 链接分析算法PageRank和HITS

链接分析算法PageRank和HITSPageRankPageRank是Google创始人提出的链接分析算法计算模型,可以说成就了Google公司。 PageRank考察网页时,不仅考虑到入链数量(指向本网页的其它网页数量),还参考了网页质量,两者结合得到更有效的网页重要性评价标准。 首先,数量上。本页面入链越多,越重要; 其次,质量上。指向本页面的页面质量越高,本页面越重要。 Pag

2017-09-16 08:54:54 2160

原创 [Java]线程池

Java线程池Java通过实现java.lang.Runnable来定义任务类,并创建线程: Runnable task=new TaskClass(task);new Thread(task).start(); 然而,为每个任务开始一个新线程可能会限制流量并且造成性能降低。 线程池是管理并发执行任务个数的理想方法。 Java’提供Executor接口来执行线程池中的任务,提供Execu

2017-09-12 16:53:42 263

转载 [Java]线程优先级问题

对于线程优先级,需要注意:Thread.setPriority()可能根本不做任何事情,这跟你的操作系统和虚拟机版本有关线程优先级对于不同的线程调度器可能有不同的含义,可能并不是你直观的推测。特别地,优先级并不一定是指CPU的分享。在UNIX系统,优先级或多或少可以认为是CPU的分配,但Windows不是这样线程的优先级通常是全局的和局部的优先级设定的组合。Java的setPriority()

2017-09-12 16:21:25 351

原创 Terrier索引及查询的处理

建索引阶段主要的数据结构有:直接索引,文档索引,词典,倒排索引。另外还有一个额外的文档集统计信息。

2017-09-07 16:14:52 678

转载 贝叶斯公式推导及意义

条件概率公式设A,B是两个事件,且P(B)>0,则在事件B发生的条件下,事件A发生的条件概率(conditional probability)为: P(A|B)=P(AB)/P(B)乘法公式1.由条件概率公式得: P(AB)=P(A|B)P(B)=P(B|A)P(A) 上式即为乘法公式;2.乘法公式的推广:对于任何正整数n

2017-09-05 16:34:37 11778

转载 MarkdownPad2注册码2017.09.05测试通过

MarkdownPad2 注册码User:Soar360@live.com授权:GBPduHjWfJU1mZqcPM3BikjYKF6xKhlKIys3i1MU2eJHqWGImDHzWdD6xhMNLGVpbP2M5SN6bnxn2kSE8qHqNY5QaaRxmO3YSMHxlv2EYpjdwLcPwfeTG7kUdnhKE0vVy4RidP6Y2wZ0q74f

2017-09-05 16:28:50 4652 2

转载 哈希表

Hash表  Hash表也称散列表,也有直接译作哈希表,Hash表是一种特殊的数据结构,它同数组、链表以及二叉排序树等相比较有很明显的区别,它能够快速定位到想要查找的记录,而不是与表中存在的记录的关键字进行比较来进行查找。这个源于Hash表设计的特殊性,它采用了函数映射的思想将记录的存储位置与记录的关键字关联起来,从而能够很快速地进行查找。1.Hash表的设计思想  对于一般的线性表,比如链表,如果

2017-09-05 10:01:26 470

原创 搜索引擎索引

倒排索引帮助搜索引擎在海量网页中快速找到包含用户查询词的所有网页。一、基本概念 1.单词文档矩阵表达哪些文档包含哪些单词的概念模型。 而搜索引擎的索引就是实现单词文档矩阵的具体数据结构。倒排项(Posting)记载出现过某个单词的所有文档的文档列表及单词在该文档中的位置信息,包含某个单词的一系列倒排项就形成了列表结构,即该单词的倒排列表。

2017-09-03 17:07:15 1409

转载 TF-IDF及其算法

TF-IDF及其算法 我的补充:一种词频因子的变体计算公式是:Wtf=1+log(tf)即将词频数值tf取Log值来作为词频权值,比如单词在文档中出现4次,则其词频则其词频因子权值为3,公式中的数字1是为了平滑计算用的,因为如果tf值为1的情况下,取Log后值为0,即原本出现了一次的单词,按照此方法会认为这个单词从来没有从文档中出现过,为避免采用加1进行平滑;

2017-09-01 09:38:45 3246

PyQt4安装包

来自官网 PyQt4-4.11.3-gpl-Py2.7-Qt4.8.6-x32.exe ,32位安装包,要事先安装好的32位的python 2.7(注意PyQt4要跟python版本和位数匹配) 安装: 一直下一步,"finish";

2017-06-27

Galago开源搜索引擎

Galago是一个用java语言写的关于文本搜索的工具集. 其中包括索引引擎和查询引擎,还包括一个叫TupleFlow的分布式计算框架(和google的MapReduce很像).这个检索系统支持很多Indri查询语言.

2016-05-25

JavaAPI(官方英文版)

Java API,这里可以看到各个类用法,我认为很有用!

2015-12-04

asp MVC留言板

这个代码是我做课程设计时参考借鉴的,十分清晰简单易懂,在此借鉴分享,希望对广大网站开发初学者有所脾益,实现了一个简单的网站在线留言版!

2015-07-11

磁盘分区助手PA5.2_Portable

分区助手是一个简单易用、多功能的免费磁盘分区管理软件,在它的帮助下,你可以无损数据地执行调整分区大小,移动分区位置,复制分区,复制磁盘, 迁移系统到固态硬盘(SSD),合并分区、拆分分区、创建分区等操作。在你使用它后,你将发现它是一个不可多得磁盘分区工具。   此外,它能运行在所有的操作系统中

2015-06-02

C++教程ppt 郑文怡

帮助学习C++语言,学习有关C++各种语法及编程

2015-06-01

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除