建立词到文档的快速查找

原创 2012年03月29日 11:37:54
第一步:对关键字进行分词
分词-分词程序-mmseg(根据某个词频匹配);
eg:
  输入内容:中华人民共和国
  词库:
      中华:50
      中华人民:100
      共和:100
      国:20
   分词结果:中华人民
             共和
             国
   均建立从这些词到该文档的索引
 第二步:建立分词结果到文档的索引

建立关键词到文档的索引;

第三部:对结果集进行排序

根据attr(类别属性)过滤结果集
命中结果集根据某个attr进行排序
在文档上可以设置每个区域的不同权重
搜索引擎:sphinx

文本特征提取_01:词项文档矩阵

王小草SparkML笔记笔记整理时间:2017年1月8日 笔记整理者:王小草今日计事: 阴天,不寒冷。给古筝换上断了的新弦,调音,然后“当”地在第一根就又断了。 恩,天意,坐回电脑前。1. 特征...
  • sinat_33761963
  • sinat_33761963
  • 2017年01月18日 17:49
  • 2250

建立词索引表

#include #include #include #include #include"HString.h" #include"LinkList.h" using namespace std; #...
  • u014033518
  • u014033518
  • 2014年08月10日 11:39
  • 1092

每天一篇面试题(三)

题目一 用尽可能多的方法找出数组中重复出现过的元素 例如:[1,2,4,4,3,3,1,5,3] 输出:[1,3,4] 作者补充:若给出多种方式,请分别给出他们的复杂度 ...
  • qq_31628337
  • qq_31628337
  • 2017年03月16日 22:25
  • 145

文本分析--潜在语义分析 之 建立词项-文档矩阵

文本分析–潜在语义分析 之 建立词项-文档矩阵标签(空格分隔): SPARK机器学习欢迎关注本小草的微信号:大数据机器学习。日后不定期分享机器学习,大数据的学习资料与博文1. 潜在语义分析Laten...
  • sinat_33761963
  • sinat_33761963
  • 2016年06月17日 13:33
  • 1318

软件工程第一次作业:java实现分析一个文本文件中各个词出现的频率,并输出频率最高的10个词

软件工程第一次作业
  • u010158673
  • u010158673
  • 2014年10月19日 15:12
  • 1379

信息检索导论——六、文档评分、词项权重计算及向量空间模型

参数化索引及域索引 迄今为止,我们都将文档看成一系列词项的序列.实际上,大多数文档都具有额外的结构信息.数字文档通常会把与之相关的元数据(metadata)以机读的方式一起编码.所谓元数据,指的...
  • u013952285
  • u013952285
  • 2016年07月11日 17:00
  • 889

高效查找树

前缀树/字典树(Trie Tree) 简介Trie Tree是一种用于快速检索的多叉树,主要用于统计和排序大量字符串问题,常被搜索引擎系统用于文本词频统计。其主要特点是最大限度地减少无谓的字符串比较,...
  • yzhang6_10
  • yzhang6_10
  • 2016年03月30日 22:19
  • 1652

文本挖掘——词云图的操作

弄了两天,今天看了一篇博文才有点搞的明白,第一天看了Rwordseg包,这个包可把我整惨了,安装它都使出吃奶的劲了,我怎么觉得还没安装到位。如果想安装的话请参考《Rwordseg使用说明》,李舰写的,...
  • littlely_ll
  • littlely_ll
  • 2017年02月04日 21:26
  • 1899

多线程抓取热词

#coding:utf-8 import threading import re import urllib from collections import deque def enco...
  • thundor
  • thundor
  • 2014年05月16日 18:03
  • 404

热词的识别与提取算法

热词的识别与提取算法标签
  • sinat_33761963
  • sinat_33761963
  • 2016年06月17日 11:27
  • 2140
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:建立词到文档的快速查找
举报原因:
原因补充:

(最多只允许输入30个字)