iteye_20038-CSDN博客

原创有关Solr中SolrIndexSearcher的search和getDocSet的差别

最近项目中碰到问题，发现在调用SolrIndexSearcher的 public TopFieldDocs search(Query query, Filter filter, int n, Sort sort) throws IOException;和public DocSet getDocSet(Query query) ...

2012-01-09 18:48:03 194

原创 UTF8格式中的BOM问题

昨天在编写程序过程中碰到一个问题，分词组件在加载词典时(词典文件是以UTF-8格式保存的txt文件),词典里的第一个词却找不到；跟踪进去后发现在加载词典时，第一个词的长度莫名的变长了一位，当时以为是带有空格或换行符，加了trim操作和去换行符，测试后问题依旧；后来在网上google了一下，最终发现问题是由于Utf-8编码格式的文件所导致，如果Utf-8的文件被记事本、D...

2012-01-05 10:19:51 172

原创如何提高lucene索引的速度

1·关闭复合文件格式调用setUseCompoundFile(false)可以关闭复合文件选项。生成复合文件将消耗更多的时间2·优化索引其实就是将多个索引文件合并成单个文件的过程,为了减少索引文件的数量级,能在搜索时减少读取索引文件的时间进行的操作。3·优化索引的最佳时机是在索引过程结束后,当确认在此一段时间不会对索引文件进行更改的时候,在索引过程中优化索引只...

2011-08-18 16:41:26 191

原创二叉树的递归与非递归遍历的实现

对于二叉树的遍历，很久没看了；目前只记得采用递归的方法来编码实现；前一阵子被人问到用非递归的方法实现先序遍历，当时没想出来，现在复习了之后写了下两种方式遍历实现的代码；package com.fishtour.research.rand;import java.util.Stack;/** 二叉树遍历 */public class BinTree { ...

2011-08-17 15:03:23 86

原创大数据量，海量数据处理方法总结(转)

大数据量，海量数据处理方法总结(转) 大数据量的问题是很多面试笔试中经常出现的问题，比如baidu google 腾讯这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目，方法不一定最优...

2011-08-16 16:53:36 117

原创 Spider技术综述（转）

文/腾讯soso 邓大付　　Spider系统是搜索引擎当中进行互联网上数据采集的一个核心子系统。在这个子系统当中，通常先种入一批种子Url，Spider对这些种子Url采集之后将链接提取入库，然后再对新入库的Url进行采集，并且负责对采集过的Url进行更新采集，如此循环。　　随着各种垂直搜索引擎的不断发展，整个Spider在功能上又分为传统的收集互联网上所有数据的大S...

2011-07-07 15:34:45 151

原创朴素贝叶斯分类器

在文本分类中，设每个数据样本用一个n维特征向量来描述n个属性的值，即：X={x1，x2，…，xn}，假定有m个类，分别用C1, C2,…，Cm表示。给定一个未知的数据样本X（即没有类标号），若朴素贝叶斯分类法将未知的样本X分配给类Ci，则一定是P(Ci|X)>P(Cj|X) 1≤j≤m，j≠i根据贝叶斯定理由于P(X)对于所有类为常数，最大化后验概率P(Ci|X)可转化为最大化...

2011-04-18 17:53:48 187

原创 K-means聚类

K-means聚类算法的一般步骤： * 初始化。输入基因表达矩阵作为对象集X，输入指定聚类类数N，并在X中随机选取N个对象作为初始聚类中心。设定迭代中止条件，比如最大循环次数或者聚类中心收敛误差容限。 * 进行迭代。根据相似度准则将数据对象分配到最接近的聚类中心，从而形成一类。初始化隶属度矩阵。 * 更新聚类中心。然后以每一类的平均向量作为新的聚类中心，重新分配数...

2011-04-18 17:28:14 90

原创 KNN算法

文本分类中KNN算法，该方法的思路非常简单直观：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 KNN方法虽然从原理上也依赖于极限定理，但在类别决策时，只与极少量的相邻样本有关。因此，采用这种方法可以较好地避免样本的不平衡问题。另外，由于...

2011-04-18 17:21:26 126

原创文本分类的备忘录（转）

目前看到的比较全面的分类算法,总结的还不错.2.4.1 主要分类方法介绍解决分类问题的方法很多[40-42] ，单一的分类方法主要包括：决策树、贝叶斯、人工神经网络、K-近邻、支持向量机和基于关联规则的分类等；另外还有用于组合单一分类方法的集成学习算法，如Bagging和Boosting等。（1）决策树决策树是用于分类和预测的主要技术之一，决策树学习是以实例为基础的归纳学习算法，它着眼...

2011-04-18 17:17:38 121

iteye_20038的博客