自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 资源 (4)
  • 收藏
  • 关注

转载 用PersonalRank实现基于图的推荐算法(转载 )

今天我们讲一个下怎么使用随机游走算法PersonalRank实现基于图的推荐。在推荐系统中,用户行为数据可以表示成图的形式,具体来说是二部图。用户的行为数据集由一个个(u,i)二元组组成,表示为用户u对物品i产生过行为。本文中我们认为用户对他产生过行为的物品的兴趣度是一样的,也就是我们只考虑“感兴趣”OR“不感兴趣”。假设有下图所示的行为数据集。其中users集U={A,

2015-02-26 13:45:11 1092

转载 海量数据处理:十道面试题与十个海量数据处理方法总结(转载)

作者:July、youwang、yanxionglu。时间:二零一一年三月二十六日本文之总结:教你如何迅速秒杀掉:99%的海量数据处理面试题。有任何问题,欢迎随时交流、指正。出处:http://blog.csdn.net/v_JULY_v。 第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。      首

2015-02-25 18:38:34 620

转载 solr的增删改查

solr的增删改查,啥都不说,直接代码package com.johnny.lucene06.solr;import java.io.IOException;import java.util.ArrayList;import java.util.Collection;import java.util.List;import org.apache.solr.c

2015-02-16 15:39:30 1116

转载 Solr4.10使用教程(二):solr和tomcat整合方法二

1、下载tomcat和solr,地址分别如下: http://tomcat.apache.org/http://lucene.apache.org/solr/3、解压tomcat与solr4、建立D:/solr作为solr的工作目录,并在工作目录下新建home和server两个文件夹,分别用来存放solr的配置文件和webdemo,拷贝完成后的文件路径如下:

2015-02-16 15:38:37 483

转载 Solr4.10使用教程(一):solr整合tomcat方法一

1、下载tomcat http://tomcat.apache.org/2、下载solr      http://lucene.apache.org/solr/3、解压tomcat与solr4、拷贝:solr-4.10.0\example\webapps\solr.war   到  apache-tomcat-8.0.12\webapps\目录中

2015-02-16 15:38:02 632

转载 Lucene4.10使用教程(十一):Lucene的近实时搜索

近实时搜索(Near real time search)表示当索引数据发生变化时,Lucene能及时把这种变化反映到客户进行查询的结果中。实现原理:只有Index Writer上的commit操作才会导致ram directory上的数据完全同步到文件。Index Writer提供了实时获得reader的API,这个调用将导致flush操作,生成新的segment,但不会c

2015-02-16 15:37:35 449

转载 Lucene4.10使用教程(九):Tika

Tika可以用来提取office、PDF、HTML、txt等常用文件中得文本(在提取文本时,图片是无法提取的,会被丢弃),方便Lucene进行文本的生成索引和检索。Tika的用法很简单,但是依赖包有些多,导入包后,使用方法如下:package com.johnny.lucene05.lucene_plugin.tika;import java.io.File;imp

2015-02-16 15:36:20 510

转载 Lucene4.10使用教程(八):Lucene的自定义评分(2)

第二种自定义评分的实现方式如下:** * 自定义评分的第二种写法,基于FunctionQuery * (1)创建类并继承ValueSource * (2)重写getValues方法 * @author Johnny * */public class MySelfScore2 {    public void searchBySelfScore(){  

2015-02-16 15:35:48 458

转载 Lucene4.10使用教程(七):Lucene的自定义评分

自定义评分的第一种实现方式,详细内容可以查看代码注释package com.johnny.lucene04.advance_search.selfScore;import java.io.IOException;import java.text.SimpleDateFormat;import java.util.Date;import org.apache.luce

2015-02-16 15:35:23 386

转载 Lucene4.10使用教程(六):Lucene的过滤器

过滤器在生产环境中应用也比较多。比如禁用词的过滤显示、推荐商品的过期设置等。在编写时,需要在incrementToken添加自己的过滤规则。,下面的demo是针对同义词编写的过滤。过滤器的编写也可以参照org.apache.lucene.analysis.cn.ChineseFilter进行编写。使用自定义过滤器进行查询package com.johnny.lucene

2015-02-16 15:34:48 432

转载 Lucene4.10使用教程(五):lucene的分词器

Lucene默认提供的分词器中有中文分词器,但是它的分词是基于单个字进行拆分的,所以在正式的项目中基本无用。所有要在项目中Lucene,需要添加另外的中分词器,比如IK、mmseg4j、paoding等。关于中文分词器的比较和适用情况,可以Google,文章很多,不是我们这里讨论的重点。如果需要使用中文分词器,也很简单,只要在使用分词器的地方,将分词器替换成我们的中文分词器即可,eg: Index

2015-02-16 15:34:12 586

转载 Lucene4.10使用教程(四):lucene的Search(转)

对于检索来说,Lucene4.10默认提供了很多检索模式,包括模糊查询、正则匹配、通配符匹配等有用的匹配模式,但是在实际使用时需要考虑Lucene匹配的效率和系统的需求然后选择相应的匹配模式。Lucene也提供了分页的查询方式。可以在scoredocs中进行分页,适合数据量比较小的情况,数据量太大有可能导致内存溢出;使用SearchAfter分页,每页都从索引中查询数据,查询速度较上一种慢

2015-02-16 15:33:28 534

转载 Lucene4.10使用教程(三):lucene的增删改查(转载)

万丈高楼平地起,在看完helloLucene的demo后,我们可以看下Lucene的增删改查,下面是详细代码。其中:Store.YES表示将索引并且存储,Store.NO表示索引但不存储在Lucene中使用评分来确定文档的重要度和优先级。评分越高,表示文档优先级越高,进行排序显示的时候显示的位置越靠前。在Lucene4.10中,无法对整个文档进行评分,不过可以通过对文档中各个Fie

2015-02-16 15:32:36 429

转载 Lucene4.10使用教程(二):简单的索引建立和读取步骤(HelloLucene)(转载)

下面是HelloLucene的代码,其中步骤已经在代码中标示出来。其中需要主要注意的是TextField和StringField的区别:StringField将字符串认为是一个整体,不能被切分;而TextField中的字符串可以被切分。package com.johnny.lucene01.index;import java.io.File;import java.

2015-02-16 15:32:05 547

转载 Lucene4.10使用教程(一):常用概念(转载)

Lucene是一个基于Java的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具包。Lucene与应用程序的关系如下图所示:在对Lucene4.10的使用进行说明前,需要先了解以下几个概念。

2015-02-16 15:30:44 399

转载 Solr调研总结(转载)

开发类型全文检索相关开发Solr版本4.2文件内容本文介绍solr的功能使用及相关注意事项;主要包括以下内容:环境搭建及调试;两个核心配置文件介绍;维护索引;查询索引,和在查询中可以应用的高亮显示、拼写检查、搜索建议、分组统计、拼音检索等功能的使用方法。版本作者/修改人日期

2015-02-16 15:27:52 1192

原创 mahout 频繁模式代码样板

频繁模式挖掘,mahout的实现是fpgrowth算法。贴样板马克一下。/** * 关联规则挖掘实现 * 李国忠 */public final class PatternFinder extends AbstractJob {    private static final Logger log = LoggerFactory.getLogger(PatternFind

2015-02-12 16:27:49 796

转载 Aprior算法简化算法——FP-Tree思想与实现(转载的)

在关联规则挖掘领域最经典的算法法是Apriori,其致命的缺点是需要多次扫描事务数据库。于是人们提出了各种裁剪(prune)数据集的方法以减少I/O开支,韩嘉炜老师的FP-Tree算法就是其中非常高效的一种。支持度和置信度严格地说Apriori和FP-Tree都是寻找频繁项集的算法,频繁项集就是所谓的“支持度”比较高的项集,下面解释一下支持度和置信度的概念。设事务数据库为:

2015-02-12 10:22:40 631

转载 Aprior算法简化算法——FP-Tree思想与实现(转)

一.假设数据集:项的集合:  I   (A,B,C,D,E,F,G,H…Z)交易数据库:D  (001,002,003…007)TIDItem1Item2Item3Item4001ABC 002BC

2015-02-12 10:21:21 887

转载 大数据如何改变教育(转载)

大数据如何改变教育     “不得不承认,对于学生,我们知道得太少”——这是卡耐基• 梅隆大学(Carnegie Mellon University)教育学院介绍中的一句自白,也同样是美国十大教育类年会中出镜率最高的核心议题。    在大多数教研活动中,评判一个课堂的好坏,更多是专家审美型的——教师的环节设计是否层层递进,提出的问题是否有效,环节设置与本节活动的目标是否契合

2015-02-11 15:32:41 811

转载 Impala 教程

Impala 教程Set Up Some Basic .csv TablesImpala 表指向已存的数据文件查看 Impala 表结构查询 Impala 表数据加载与查询的例子加载数据查询例子例子:检查表的内容例子:聚合与连接例子: 子查询, 聚合和连接例子: INSERT 查询将外部分区表指向 HDFS 目录结构Impala 与 Hive 之

2015-02-06 15:23:28 1613 1

转载 Hadoop fs命令

Hadoop fs命令最近使用hive做一些etl工作,除了日常sql的编写,了解hadoop及hive的一些底层原理性质的东西包括调优非常有必要,一次hive调优就把原来的零散文件做了合并。首先记下hadoop常用的命令:(hadoop fs -help列出全部)1,hadoop fs –fs [local | ]:声明hadoop使用的文件系统,如果不声明的话,使用当前

2015-02-06 14:36:48 504

转载 使用yum安装CDH Hadoop集群(转载)

使用yum安装CDH Hadoop集群 2013.04.06原始地址:http://blog.javachen.com/2013/04/06/install-cloudera-cdh-by-yum/Update:2014.07.21 添加 lzo 的安装2014.05.20 修改cdh4为cdh5进行安装。2014.10.22 添加安装 cdh5.2 注意事项。1、cd

2015-02-05 10:18:49 1027

Effective Java中文

这是一个写好应用的外国产品,帮助找到线上应用存在的error。包括返回错误异常等。

2019-05-07

Zookeeper 在携程的使用和场景

Zookeeper 在携程的使用和场景,生产线上的正式场景例子。引导我的zookeeper的系列文章

2015-03-24

zkoss开发培训资料

zkoss开发培训资料,和大家分享,仅为帮java web开发人员减轻开发压力,我也是java web开发,为了做效果好的界面,曾经深受过easyui和extjs深深的恶心过。根据项目中辛苦整理的培训文档,转载请注明下载地址,如果有需要源码可以联系我。

2014-07-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除