2016年04月_小松悦读会 | kevinelstri

12月 11月 10月 09月 08月 07月 06月 04月 03月

转载 Lucene索引库的简单优化

根据实际情况对索引库进行优化，可以提升创建索引和搜索的速度。　　1、合并索引库片段文件　　IndexWriter的optimize()方法已经过时，因为这个方法的效率很低。合并文件主要是使用IndexWriter的setMergeFactor(int)方法，但是在Lucene3.6版本中，该方法已过时，直接使用LogMergePolicy.setMergeFactor(int)方法代替。　　当set

2016-04-06 15:04:28 592

转载关于Lucene以及索引和搜索的流程

Lucene的普及和成功的背后是因为它的简单。　　因此，你不需要深入理解Lucene的信息索引和检索工作方面的知识就可以开始使用。　　Lucene提供了简单但是强大的核心API去实现全文索引和检索，你只需要掌握少数的类就能将Lucene整合到应用中。　　刚接触Lucene的人可能会误认为Lucene是一个文件搜索工具、网络爬虫、或者网页搜索引擎。实际上Lucene是一个软件库，而不是一个全功能的搜索

2016-04-06 15:02:23 2896

转载【Eclipse 01】MyEclipse项目中的构建路径和类路径lib的问题

完成之后在使用原先的MyEclipse项目时，几个项目出现了错误，我一看是由于所需要的jar包不存在造成的，仔细一看，同学的挺多的项目都是用构建路径的方式将jar包放入到MyEclipse项目中的，而且有些项目都是Web项目，对于一个Web项目来说，按照标准的方式都是将所需要的jar包放在lib文件夹下的，而有时做普通的java项目的时候，都习惯于用构建路径的方式将所需要的jar导入进来。对于用构建

2016-04-06 14:18:47 5880

转载 lucene的中文分词器

lucene的中文分词器到现在还没有好的解决办法。下边介绍了两个lucene自己提供的分词器和一个javaeye上的网友实现的分词器。关于各个分词器的不同见代码中的print信息。直接运行得到console的输出结果更容易对比不同。package analyzer;import java.io.Reader;import java.io.StringReader;import org.apache

2016-04-06 14:00:25 757

转载 lucene的丰富的各种查询（二）

lucene的查询用法包括了RangeQuery、prefixQuery、phraseQuery、wildcastQuery、fuzzyQuery 被索引查询的文件，按照需求自己构造即可。package search;import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import

2016-04-06 13:59:14 419

原创 lucene的丰富的各种查询(一)

lucene支持十分丰富的查询，这里列写其中一些比较常用的查询的用法。 term查询 queryParser查询 booleanQuery查询package search;import org.apache.lucene.analysis.standard.StandardAnalyzer;import org.apache.lucene.index.Term;import org.ap

2016-04-06 13:57:11 468

原创比较lucene各种英文分析器Analyzer

比较常用的几种英文分析器，他们之间的区别见程序中的注释。 SimpleAnalyzer StandardAnalyzer WhitespaceAnalyzer StopAnalyzerpackage analyzer;import java.io.Reader;import java.io.StringReader;import org.apache.lucene.analysis.Ana

2016-04-06 13:55:55 711

转载 lucene建立索引时候的用到的一些文档和目录操作

在前边的文章中多是用的添加一个document，这里介绍一下其它的文档操作 1,按照编号删除public void deleteDoc(String indexDir) throws Exception{ IndexReader reader = IndexReader.open(indexDir); reader.delete(1); reader

2016-04-06 13:54:41 434

转载 lucene 索引非txt文档 (pdf word rtf html xml)

搜索要首先要索引，索引的话最简单的方式是索引txt文件，上文已经介绍了。这里介绍一下一些其它格式的文档的索引，例如ms word ,pdf ,rtf等。索引方法：就是先把各种文档先转化成纯文本再索引，所以关键在转换上。幸好java世界中有太多的开源工程，很多都可以拿来直接使用。下边分别介绍一下：写在所有之前：下边所有介绍中的is参数都是inputStream，就是被索引的文件。 word文

2016-04-06 13:51:50 790

转载 apache lucene 的核心类

下边介绍一下lucene的核心类：(参考lucene in action) 主要有两部分组成，核心索引类和核心搜索类，顾名思意，就是用来建立索引和用来搜索的类。IndexWriter：可以对索引进行写操作，但不能读取或者搜索。是唯一能写索引的类。**Directory：**Directory类代表一个Lucene索引的位置。它是一个抽象类，允许它的子类(其中的两个包含在Lucene中)在合适时存储

2016-04-06 13:49:17 442

转载 apache lucene 一个最简单的实例

就像每个程序都有一个Hello World来让人体验它一样，lucene也可以很简单的提供一个实例。如下（来自lucene in action的例子）有两个类组成：一个是建立索引：package my;import java.io.File;import java.io.FileReader;import java.io.IOException;import java.ut

2016-04-06 13:47:14 636

转载 apache lucene介绍

什么是lucene Apache Lucene是一个开放源程序的搜寻器引擎，利用它可以轻易地为Java软件加入全文搜寻功能。Lucene的最主要工作是替文件的每一个字作索引，索引让搜寻的效率比传统的逐字比较大大提高，Lucen提供一组解读，过滤，分析文件，编排和使用索引的API，它的强大之处除了高效和简单外，是最重要的是使使用者可以随时应自已需要自订其功能。 Lucene是apache软件基金会项

2016-04-06 13:43:53 514

ourbestModel_highscore3500

斯坦福大学的学生基础性地教导系统去了解和回应自然语言提示，例如“climb down the ladder”或“get the key”，从而使该系统成为OpenAI gym中的最高评分算法。可以点击算法视频观看算法演示。 http://mp.weixinbridge.com/mp/wapredirect?url=https://drive.google.com/file/d/0B2ZTvWzKa5PHSkJvQVlsb0FLYzQ/view&action=appmsg_redirect&uin=Nzk3MTk3MzIw&biz=MzA5MzQwMDk4Mg==&mid=2651042109&idx=1&type=1&scene=0

2019-04-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

墨竹

转载 Lucene索引库的简单优化

转载关于Lucene以及索引和搜索的流程

转载【Eclipse 01】MyEclipse项目中的构建路径和类路径lib的问题

转载 lucene的中文分词器

转载 lucene的丰富的各种查询（二）

原创 lucene的丰富的各种查询(一)

原创比较lucene各种英文分析器Analyzer

转载 lucene建立索引时候的用到的一些文档和目录操作

转载 lucene 索引非txt文档 (pdf word rtf html xml)

转载 apache lucene 的核心类

转载 apache lucene 一个最简单的实例

转载 apache lucene介绍

ourbestModel_highscore3500

《大规模基于构件的软件开发》PDF版本

tensorflow api 英文版

tensorflow_whitepaper2015

停用词表stopwords

文本分析--停用词集合（结合哈工大停用词表、四川大学机器智能实验室停用词库、百度停用词表等）

聚类内部评价标准--IEEE论文

股票数据集

MP3的多媒体文件结构

空空如也