信息检索
文章平均质量分 71
刘惜君的灯笼呐
软件工程专业学生/用此博客作为整理平时作业的地方~
展开
-
倒排索引/布尔检索
import java.io.*; import java.util.*;//////创建一个比较器。用ASCII码大小升序排序class MyComparator2 implements Comparator{ @Override public int compare(String o1, String o2) { return原创 2016-04-28 11:13:25 · 2873 阅读 · 0 评论 -
基于跳表指针(skip points)的倒排记录表(postings lists)合并算法
public class skip {public static void main(String args[]){//////////初始化两个数组a,b,相当于两个倒排表int a[]={2,4,8,16,19,23,28,43};int b[]={1,2,3,5,8,41,51,60,71};int c[]=new int [20];//数组用于存放相同的位置int原创 2016-04-28 11:21:33 · 3119 阅读 · 0 评论 -
基于动态规划(dynamic programming)的计算两个字符串的编辑距离
以fast和cats为例算法为:实现代码:(以cats和fast为例)public class dynamic { public static int mini(int a,int b,int c){ if(a<=b && a<=c) return a; if(b<=a && b<=c) return b; if(c<=a && c<=b)原创 2016-04-28 11:36:44 · 879 阅读 · 0 评论 -
以HERMAN为例的基于发音的矫正技术
算法:public class herman { public static void main(String args[]){ char []a={'H','E','R','M','A','N'};//数组初始化,存放所需要的字符 int []b=new int[20];//用于存放转化之后的数组 int i,j,t; for(i=1;i<a.length;原创 2016-04-28 12:19:09 · 788 阅读 · 0 评论 -
邻近搜索(proximity search)中的两个倒排记录表
算法:例题:具体实现:import java.util.*;public class proximitysearch { public static void main(String args[]) { LinkedList list=new LinkedList(); HashMap,String> hsmp=new HashMap,String>原创 2016-04-28 11:44:09 · 1829 阅读 · 0 评论 -
向量相似度算法,BM25,Jelinek-Mercer平滑
完整的来说,一下算法包括三个函数,分别是向量相似度基本算法,BM25,语言模型方法(Jelinek-Mercer平滑)或者叫线性插值LM向量相似度基本算法公式为:其中w表示权重,d表示文档。权重的计算公式为w= idf为逆文档频率BM2公式为:均长度。其中,k1,b为调节因子,通常根据经验设置,一般k1=2,b=0.75语言模型方法(Jelinek-Mercer原创 2016-05-23 14:44:13 · 4659 阅读 · 1 评论