2015年02月_codemosi

11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载用PersonalRank实现基于图的推荐算法(转载 )

今天我们讲一个下怎么使用随机游走算法PersonalRank实现基于图的推荐。在推荐系统中，用户行为数据可以表示成图的形式，具体来说是二部图。用户的行为数据集由一个个（u,i）二元组组成，表示为用户u对物品i产生过行为。本文中我们认为用户对他产生过行为的物品的兴趣度是一样的，也就是我们只考虑“感兴趣”OR“不感兴趣”。假设有下图所示的行为数据集。其中users集U={A,

2015-02-26 13:45:11 1092

转载海量数据处理：十道面试题与十个海量数据处理方法总结（转载）

作者：July、youwang、yanxionglu。时间：二零一一年三月二十六日本文之总结：教你如何迅速秒杀掉：99%的海量数据处理面试题。有任何问题，欢迎随时交流、指正。出处：http://blog.csdn.net/v_JULY_v。第一部分、十道海量数据处理面试题1、海量日志数据，提取出某日访问百度次数最多的那个IP。首

2015-02-25 18:38:34 620

转载 solr的增删改查

solr的增删改查，啥都不说，直接代码package com.johnny.lucene06.solr;import java.io.IOException;import java.util.ArrayList;import java.util.Collection;import java.util.List;import org.apache.solr.c

2015-02-16 15:39:30 1116

转载 Solr4.10使用教程(二)：solr和tomcat整合方法二

1、下载tomcat和solr，地址分别如下： http://tomcat.apache.org/http://lucene.apache.org/solr/3、解压tomcat与solr4、建立D:/solr作为solr的工作目录，并在工作目录下新建home和server两个文件夹，分别用来存放solr的配置文件和webdemo，拷贝完成后的文件路径如下：

2015-02-16 15:38:37 483

转载 Solr4.10使用教程(一)：solr整合tomcat方法一

1、下载tomcat http://tomcat.apache.org/2、下载solr http://lucene.apache.org/solr/3、解压tomcat与solr4、拷贝：solr-4.10.0\example\webapps\solr.war 到 apache-tomcat-8.0.12\webapps\目录中

2015-02-16 15:38:02 632

转载 Lucene4.10使用教程(十一)：Lucene的近实时搜索

近实时搜索(Near real time search)表示当索引数据发生变化时，Lucene能及时把这种变化反映到客户进行查询的结果中。实现原理：只有Index Writer上的commit操作才会导致ram directory上的数据完全同步到文件。Index Writer提供了实时获得reader的API，这个调用将导致flush操作，生成新的segment，但不会c

2015-02-16 15:37:35 449

转载 Lucene4.10使用教程(九)：Tika

Tika可以用来提取office、PDF、HTML、txt等常用文件中得文本（在提取文本时，图片是无法提取的，会被丢弃），方便Lucene进行文本的生成索引和检索。Tika的用法很简单，但是依赖包有些多，导入包后，使用方法如下：package com.johnny.lucene05.lucene_plugin.tika;import java.io.File;imp

2015-02-16 15:36:20 510

转载 Lucene4.10使用教程(八)：Lucene的自定义评分(2)

第二种自定义评分的实现方式如下：** * 自定义评分的第二种写法，基于FunctionQuery * (1)创建类并继承ValueSource * (2)重写getValues方法 * @author Johnny * */public class MySelfScore2 { public void searchBySelfScore(){

2015-02-16 15:35:48 458

转载 Lucene4.10使用教程(七)：Lucene的自定义评分

自定义评分的第一种实现方式，详细内容可以查看代码注释package com.johnny.lucene04.advance_search.selfScore;import java.io.IOException;import java.text.SimpleDateFormat;import java.util.Date;import org.apache.luce

2015-02-16 15:35:23 386

转载 Lucene4.10使用教程(六)：Lucene的过滤器

过滤器在生产环境中应用也比较多。比如禁用词的过滤显示、推荐商品的过期设置等。在编写时，需要在incrementToken添加自己的过滤规则。，下面的demo是针对同义词编写的过滤。过滤器的编写也可以参照org.apache.lucene.analysis.cn.ChineseFilter进行编写。使用自定义过滤器进行查询package com.johnny.lucene

2015-02-16 15:34:48 432

转载 Lucene4.10使用教程(五)：lucene的分词器

Lucene默认提供的分词器中有中文分词器，但是它的分词是基于单个字进行拆分的，所以在正式的项目中基本无用。所有要在项目中Lucene，需要添加另外的中分词器，比如IK、mmseg4j、paoding等。关于中文分词器的比较和适用情况，可以Google，文章很多，不是我们这里讨论的重点。如果需要使用中文分词器，也很简单，只要在使用分词器的地方，将分词器替换成我们的中文分词器即可，eg: Index

2015-02-16 15:34:12 586

转载 Lucene4.10使用教程(四)：lucene的Search（转）

对于检索来说，Lucene4.10默认提供了很多检索模式，包括模糊查询、正则匹配、通配符匹配等有用的匹配模式，但是在实际使用时需要考虑Lucene匹配的效率和系统的需求然后选择相应的匹配模式。Lucene也提供了分页的查询方式。可以在scoredocs中进行分页，适合数据量比较小的情况，数据量太大有可能导致内存溢出；使用SearchAfter分页，每页都从索引中查询数据，查询速度较上一种慢

2015-02-16 15:33:28 534

转载 Lucene4.10使用教程(三)：lucene的增删改查（转载）

万丈高楼平地起，在看完helloLucene的demo后，我们可以看下Lucene的增删改查，下面是详细代码。其中：Store.YES表示将索引并且存储，Store.NO表示索引但不存储在Lucene中使用评分来确定文档的重要度和优先级。评分越高，表示文档优先级越高，进行排序显示的时候显示的位置越靠前。在Lucene4.10中，无法对整个文档进行评分，不过可以通过对文档中各个Fie

2015-02-16 15:32:36 429

转载 Lucene4.10使用教程(二)：简单的索引建立和读取步骤（HelloLucene）（转载）

下面是HelloLucene的代码，其中步骤已经在代码中标示出来。其中需要主要注意的是TextField和StringField的区别：StringField将字符串认为是一个整体，不能被切分；而TextField中的字符串可以被切分。package com.johnny.lucene01.index;import java.io.File;import java.

2015-02-16 15:32:05 547

转载 Lucene4.10使用教程(一)：常用概念（转载）

Lucene是一个基于Java的全文信息检索工具包，它不是一个完整的搜索应用程序，而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具包。Lucene与应用程序的关系如下图所示：在对Lucene4.10的使用进行说明前，需要先了解以下几个概念。

2015-02-16 15:30:44 399

转载 Solr调研总结(转载)

开发类型全文检索相关开发Solr版本4.2文件内容本文介绍solr的功能使用及相关注意事项;主要包括以下内容:环境搭建及调试;两个核心配置文件介绍;维护索引;查询索引,和在查询中可以应用的高亮显示、拼写检查、搜索建议、分组统计、拼音检索等功能的使用方法。版本作者/修改人日期

2015-02-16 15:27:52 1192

原创 mahout 频繁模式代码样板

频繁模式挖掘，mahout的实现是fpgrowth算法。贴样板马克一下。/** * 关联规则挖掘实现 * 李国忠 */public final class PatternFinder extends AbstractJob { private static final Logger log = LoggerFactory.getLogger(PatternFind

2015-02-12 16:27:49 796

转载 Aprior算法简化算法——FP-Tree思想与实现(转载的）

在关联规则挖掘领域最经典的算法法是Apriori，其致命的缺点是需要多次扫描事务数据库。于是人们提出了各种裁剪（prune）数据集的方法以减少I/O开支，韩嘉炜老师的FP-Tree算法就是其中非常高效的一种。支持度和置信度严格地说Apriori和FP-Tree都是寻找频繁项集的算法，频繁项集就是所谓的“支持度”比较高的项集，下面解释一下支持度和置信度的概念。设事务数据库为：

2015-02-12 10:22:40 631

转载 Aprior算法简化算法——FP-Tree思想与实现(转)

一.假设数据集：项的集合： I (A,B,C,D,E,F,G,H…Z)交易数据库：D (001,002,003…007)TIDItem1Item2Item3Item4001ABC 002BC

2015-02-12 10:21:21 887

转载大数据如何改变教育（转载）

大数据如何改变教育 “不得不承认，对于学生，我们知道得太少”——这是卡耐基• 梅隆大学（Carnegie Mellon University）教育学院介绍中的一句自白，也同样是美国十大教育类年会中出镜率最高的核心议题。在大多数教研活动中，评判一个课堂的好坏，更多是专家审美型的——教师的环节设计是否层层递进，提出的问题是否有效，环节设置与本节活动的目标是否契合

2015-02-11 15:32:41 811

转载 Impala 教程

Impala 教程Set Up Some Basic .csv TablesImpala 表指向已存的数据文件查看 Impala 表结构查询 Impala 表数据加载与查询的例子加载数据查询例子例子：检查表的内容例子：聚合与连接例子: 子查询, 聚合和连接例子: INSERT 查询将外部分区表指向 HDFS 目录结构Impala 与 Hive 之

2015-02-06 15:23:28 1613 1

转载 Hadoop fs命令

Hadoop fs命令最近使用hive做一些etl工作，除了日常sql的编写，了解hadoop及hive的一些底层原理性质的东西包括调优非常有必要，一次hive调优就把原来的零散文件做了合并。首先记下hadoop常用的命令：（hadoop fs -help列出全部）1，hadoop fs –fs [local | ]：声明hadoop使用的文件系统，如果不声明的话，使用当前

2015-02-06 14:36:48 504

转载使用yum安装CDH Hadoop集群（转载）

使用yum安装CDH Hadoop集群 2013.04.06原始地址：http://blog.javachen.com/2013/04/06/install-cloudera-cdh-by-yum/Update:2014.07.21 添加 lzo 的安装2014.05.20 修改cdh4为cdh5进行安装。2014.10.22 添加安装 cdh5.2 注意事项。1、cd

2015-02-05 10:18:49 1027

Effective Java中文

这是一个写好应用的外国产品，帮助找到线上应用存在的error。包括返回错误异常等。

2019-05-07

Zookeeper 在携程的使用和场景

Zookeeper 在携程的使用和场景,生产线上的正式场景例子。引导我的zookeeper的系列文章

2015-03-24

zkoss开发培训资料

zkoss开发培训资料，和大家分享，仅为帮java web开发人员减轻开发压力，我也是java web开发，为了做效果好的界面，曾经深受过easyui和extjs深深的恶心过。根据项目中辛苦整理的培训文档，转载请注明下载地址，如果有需要源码可以联系我。

2014-07-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人