自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (9)
  • 收藏
  • 关注

转载 Lucene索引库的简单优化

根据实际情况对索引库进行优化,可以提升创建索引和搜索的速度。  1、合并索引库片段文件  IndexWriter的optimize()方法已经过时,因为这个方法的效率很低。合并文件主要是使用IndexWriter的setMergeFactor(int)方法,但是在Lucene3.6版本中,该方法已过时,直接使用LogMergePolicy.setMergeFactor(int)方法代替。  当set

2016-04-06 15:04:28 592

转载 关于Lucene以及索引和搜索的流程

Lucene的普及和成功的背后是因为它的简单。  因此,你不需要深入理解Lucene的信息索引和检索工作方面的知识就可以开始使用。  Lucene提供了简单但是强大的核心API去实现全文索引和检索,你只需要掌握少数的类就能将Lucene整合到应用中。  刚接触Lucene的人可能会误认为Lucene是一个文件搜索工具、网络爬虫、或者网页搜索引擎。实际上Lucene是一个软件库,而不是一个全功能的搜索

2016-04-06 15:02:23 2896

转载 【Eclipse 01】MyEclipse项目中的构建路径和类路径lib的问题

完成之后在使用原先的MyEclipse项目时,几个项目出现了错误,我一看是由于所需要的jar包不存在造成的,仔细一看,同学的挺多的项目都是用构建路径的方式将jar包放入到MyEclipse项目中的,而且有些项目都是Web项目,对于一个Web项目来说,按照标准的方式都是将所需要的jar包放在lib文件夹下的,而有时做普通的java项目的时候,都习惯于用构建路径的方式将所需要的jar导入进来。对于用构建

2016-04-06 14:18:47 5880

转载 lucene的中文分词器

lucene的中文分词器到现在还没有好的解决办法。下边介绍了两个lucene自己提供的分词器和一个javaeye上的网友实现的分词器。关于各个分词器的不同见代码中的print信息。直接运行得到console的输出结果更容易对比不同。package analyzer;import java.io.Reader;import java.io.StringReader;import org.apache

2016-04-06 14:00:25 757

转载 lucene的丰富的各种查询(二)

lucene的查询用法包括了RangeQuery、prefixQuery、phraseQuery、wildcastQuery、fuzzyQuery 被索引查询的文件,按照需求自己构造即可。package search;import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import

2016-04-06 13:59:14 419

原创 lucene的丰富的各种查询(一)

lucene支持十分丰富的查询,这里列写其中一些比较常用的查询的用法。 term查询 queryParser查询 booleanQuery查询package search;import org.apache.lucene.analysis.standard.StandardAnalyzer;import org.apache.lucene.index.Term;import org.ap

2016-04-06 13:57:11 468

原创 比较lucene各种英文分析器Analyzer

比较常用的几种英文分析器,他们之间的区别见程序中的注释。 SimpleAnalyzer StandardAnalyzer WhitespaceAnalyzer StopAnalyzerpackage analyzer;import java.io.Reader;import java.io.StringReader;import org.apache.lucene.analysis.Ana

2016-04-06 13:55:55 711

转载 lucene建立索引时候的用到的一些文档和目录操作

在前边的文章中多是用的添加一个document,这里介绍一下其它的文档操作 1,按照编号删除public void deleteDoc(String indexDir) throws Exception{ IndexReader reader = IndexReader.open(indexDir); reader.delete(1); reader

2016-04-06 13:54:41 434

转载 lucene 索引非txt文档 (pdf word rtf html xml)

搜索要首先要索引,索引的话最简单的方式是索引txt文件,上文已经介绍了。这里介绍一下一些其它格式的文档的索引,例如ms word ,pdf ,rtf等。 索引方法:就是先把各种文档先转化成纯文本再索引,所以关键在转换上。幸好java世界中有太多的开源工程,很多都可以拿来直接使用。下边分别介绍一下: 写在所有之前:下边所有介绍中的is参数都是inputStream,就是被索引的文件。 word文

2016-04-06 13:51:50 790

转载 apache lucene 的核心类

下边介绍一下lucene的核心类:(参考lucene in action) 主要有两部分组成,核心索引类和核心搜索类,顾名思意,就是用来建立索引和用来搜索的类。IndexWriter:可以对索引进行写操作,但不能读取或者搜索。是唯一能写索引的类。**Directory:**Directory类代表一个Lucene索引的位置。它是一个抽象类,允许它的子类(其中的两个包含在Lucene中)在合适时存储

2016-04-06 13:49:17 442

转载 apache lucene 一个最简单的实例

就像每个程序都有一个Hello World来让人体验它一样,lucene也可以很简单的提供一个实例。如下(来自lucene in action的例子)有两个类组成: 一个是建立索引:package my;import java.io.File;import java.io.FileReader;import java.io.IOException;import java.ut

2016-04-06 13:47:14 636

转载 apache lucene介绍

什么是lucene Apache Lucene是一个开放源程序的搜寻器引擎,利用它可以轻易地为Java软件加入全文搜寻功能。Lucene的最主要工作是替文件的每一个字作索引,索引让搜寻的效率比传统的逐字比较大大提高,Lucen提供一组解读,过滤,分析文件,编排和使用索引的API,它的强大之处除了高效和简单外,是最重要的是使使用者可以随时应自已需要自订其功能。 Lucene是apache软件基金会项

2016-04-06 13:43:53 514

ourbestModel_highscore3500

斯坦福大学的学生基础性地教导系统去了解和回应自然语言提示,例如“climb down the ladder”或“get the key”,从而使该系统成为OpenAI gym中的最高评分算法。可以点击算法视频观看算法演示。 http://mp.weixinbridge.com/mp/wapredirect?url=https://drive.google.com/file/d/0B2ZTvWzKa5PHSkJvQVlsb0FLYzQ/view&action=appmsg_redirect&uin=Nzk3MTk3MzIw&biz=MzA5MzQwMDk4Mg==&mid=2651042109&idx=1&type=1&scene=0

2019-04-14

《大规模基于构件的软件开发》PDF版本

csdn中有很多这本书的版本,但全部都是pdg超星下载的,这个是带目录标签的PDF完全版,真实有效,绝不虚假!

2018-09-08

tensorflow api 英文版

tensorflow api 英文版, 高清版。。。。。。。。。。。

2018-02-09

tensorflow_whitepaper2015

tensorflow whitepaper2015, google paper 。。。。

2018-02-09

停用词表stopwords

文本分析--停用词集合(结合哈工大停用词表、四川大学机器智能实验室停用词库、百度停用词表等)http://blog.csdn.net/kevinelstri/article/details/70227981

2017-08-15

文本分析--停用词集合(结合哈工大停用词表、四川大学机器智能实验室停用词库、百度停用词表等)

综合多种停用词表,进行合并去重处理,http://blog.csdn.net/kevinelstri/article/details/70227981

2017-04-18

聚类内部评价标准--IEEE论文

2010IEEE论文,聚类内部评价标准

2017-03-14

股票数据集

股票数据集,google扒下来的

2017-03-13

MP3的多媒体文件结构

mp3由头部和数据构成,mp3格式也是压缩比率最大的格式,它将音频中75%到90%人类听不到的声音全部过滤掉了,音频质量也就不能很高了

2017-03-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除