- 博客(23)
- 资源 (4)
- 收藏
- 关注
转载 用PersonalRank实现基于图的推荐算法(转载 )
今天我们讲一个下怎么使用随机游走算法PersonalRank实现基于图的推荐。在推荐系统中,用户行为数据可以表示成图的形式,具体来说是二部图。用户的行为数据集由一个个(u,i)二元组组成,表示为用户u对物品i产生过行为。本文中我们认为用户对他产生过行为的物品的兴趣度是一样的,也就是我们只考虑“感兴趣”OR“不感兴趣”。假设有下图所示的行为数据集。其中users集U={A,
2015-02-26 13:45:11 1092
转载 海量数据处理:十道面试题与十个海量数据处理方法总结(转载)
作者:July、youwang、yanxionglu。时间:二零一一年三月二十六日本文之总结:教你如何迅速秒杀掉:99%的海量数据处理面试题。有任何问题,欢迎随时交流、指正。出处:http://blog.csdn.net/v_JULY_v。 第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首
2015-02-25 18:38:34 620
转载 solr的增删改查
solr的增删改查,啥都不说,直接代码package com.johnny.lucene06.solr;import java.io.IOException;import java.util.ArrayList;import java.util.Collection;import java.util.List;import org.apache.solr.c
2015-02-16 15:39:30 1116
转载 Solr4.10使用教程(二):solr和tomcat整合方法二
1、下载tomcat和solr,地址分别如下: http://tomcat.apache.org/http://lucene.apache.org/solr/3、解压tomcat与solr4、建立D:/solr作为solr的工作目录,并在工作目录下新建home和server两个文件夹,分别用来存放solr的配置文件和webdemo,拷贝完成后的文件路径如下:
2015-02-16 15:38:37 483
转载 Solr4.10使用教程(一):solr整合tomcat方法一
1、下载tomcat http://tomcat.apache.org/2、下载solr http://lucene.apache.org/solr/3、解压tomcat与solr4、拷贝:solr-4.10.0\example\webapps\solr.war 到 apache-tomcat-8.0.12\webapps\目录中
2015-02-16 15:38:02 632
转载 Lucene4.10使用教程(十一):Lucene的近实时搜索
近实时搜索(Near real time search)表示当索引数据发生变化时,Lucene能及时把这种变化反映到客户进行查询的结果中。实现原理:只有Index Writer上的commit操作才会导致ram directory上的数据完全同步到文件。Index Writer提供了实时获得reader的API,这个调用将导致flush操作,生成新的segment,但不会c
2015-02-16 15:37:35 449
转载 Lucene4.10使用教程(九):Tika
Tika可以用来提取office、PDF、HTML、txt等常用文件中得文本(在提取文本时,图片是无法提取的,会被丢弃),方便Lucene进行文本的生成索引和检索。Tika的用法很简单,但是依赖包有些多,导入包后,使用方法如下:package com.johnny.lucene05.lucene_plugin.tika;import java.io.File;imp
2015-02-16 15:36:20 510
转载 Lucene4.10使用教程(八):Lucene的自定义评分(2)
第二种自定义评分的实现方式如下:** * 自定义评分的第二种写法,基于FunctionQuery * (1)创建类并继承ValueSource * (2)重写getValues方法 * @author Johnny * */public class MySelfScore2 { public void searchBySelfScore(){
2015-02-16 15:35:48 458
转载 Lucene4.10使用教程(七):Lucene的自定义评分
自定义评分的第一种实现方式,详细内容可以查看代码注释package com.johnny.lucene04.advance_search.selfScore;import java.io.IOException;import java.text.SimpleDateFormat;import java.util.Date;import org.apache.luce
2015-02-16 15:35:23 386
转载 Lucene4.10使用教程(六):Lucene的过滤器
过滤器在生产环境中应用也比较多。比如禁用词的过滤显示、推荐商品的过期设置等。在编写时,需要在incrementToken添加自己的过滤规则。,下面的demo是针对同义词编写的过滤。过滤器的编写也可以参照org.apache.lucene.analysis.cn.ChineseFilter进行编写。使用自定义过滤器进行查询package com.johnny.lucene
2015-02-16 15:34:48 432
转载 Lucene4.10使用教程(五):lucene的分词器
Lucene默认提供的分词器中有中文分词器,但是它的分词是基于单个字进行拆分的,所以在正式的项目中基本无用。所有要在项目中Lucene,需要添加另外的中分词器,比如IK、mmseg4j、paoding等。关于中文分词器的比较和适用情况,可以Google,文章很多,不是我们这里讨论的重点。如果需要使用中文分词器,也很简单,只要在使用分词器的地方,将分词器替换成我们的中文分词器即可,eg: Index
2015-02-16 15:34:12 586
转载 Lucene4.10使用教程(四):lucene的Search(转)
对于检索来说,Lucene4.10默认提供了很多检索模式,包括模糊查询、正则匹配、通配符匹配等有用的匹配模式,但是在实际使用时需要考虑Lucene匹配的效率和系统的需求然后选择相应的匹配模式。Lucene也提供了分页的查询方式。可以在scoredocs中进行分页,适合数据量比较小的情况,数据量太大有可能导致内存溢出;使用SearchAfter分页,每页都从索引中查询数据,查询速度较上一种慢
2015-02-16 15:33:28 534
转载 Lucene4.10使用教程(三):lucene的增删改查(转载)
万丈高楼平地起,在看完helloLucene的demo后,我们可以看下Lucene的增删改查,下面是详细代码。其中:Store.YES表示将索引并且存储,Store.NO表示索引但不存储在Lucene中使用评分来确定文档的重要度和优先级。评分越高,表示文档优先级越高,进行排序显示的时候显示的位置越靠前。在Lucene4.10中,无法对整个文档进行评分,不过可以通过对文档中各个Fie
2015-02-16 15:32:36 429
转载 Lucene4.10使用教程(二):简单的索引建立和读取步骤(HelloLucene)(转载)
下面是HelloLucene的代码,其中步骤已经在代码中标示出来。其中需要主要注意的是TextField和StringField的区别:StringField将字符串认为是一个整体,不能被切分;而TextField中的字符串可以被切分。package com.johnny.lucene01.index;import java.io.File;import java.
2015-02-16 15:32:05 547
转载 Lucene4.10使用教程(一):常用概念(转载)
Lucene是一个基于Java的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具包。Lucene与应用程序的关系如下图所示:在对Lucene4.10的使用进行说明前,需要先了解以下几个概念。
2015-02-16 15:30:44 399
转载 Solr调研总结(转载)
开发类型全文检索相关开发Solr版本4.2文件内容本文介绍solr的功能使用及相关注意事项;主要包括以下内容:环境搭建及调试;两个核心配置文件介绍;维护索引;查询索引,和在查询中可以应用的高亮显示、拼写检查、搜索建议、分组统计、拼音检索等功能的使用方法。版本作者/修改人日期
2015-02-16 15:27:52 1192
原创 mahout 频繁模式代码样板
频繁模式挖掘,mahout的实现是fpgrowth算法。贴样板马克一下。/** * 关联规则挖掘实现 * 李国忠 */public final class PatternFinder extends AbstractJob { private static final Logger log = LoggerFactory.getLogger(PatternFind
2015-02-12 16:27:49 796
转载 Aprior算法简化算法——FP-Tree思想与实现(转载的)
在关联规则挖掘领域最经典的算法法是Apriori,其致命的缺点是需要多次扫描事务数据库。于是人们提出了各种裁剪(prune)数据集的方法以减少I/O开支,韩嘉炜老师的FP-Tree算法就是其中非常高效的一种。支持度和置信度严格地说Apriori和FP-Tree都是寻找频繁项集的算法,频繁项集就是所谓的“支持度”比较高的项集,下面解释一下支持度和置信度的概念。设事务数据库为:
2015-02-12 10:22:40 631
转载 Aprior算法简化算法——FP-Tree思想与实现(转)
一.假设数据集:项的集合: I (A,B,C,D,E,F,G,H…Z)交易数据库:D (001,002,003…007)TIDItem1Item2Item3Item4001ABC 002BC
2015-02-12 10:21:21 887
转载 大数据如何改变教育(转载)
大数据如何改变教育 “不得不承认,对于学生,我们知道得太少”——这是卡耐基• 梅隆大学(Carnegie Mellon University)教育学院介绍中的一句自白,也同样是美国十大教育类年会中出镜率最高的核心议题。 在大多数教研活动中,评判一个课堂的好坏,更多是专家审美型的——教师的环节设计是否层层递进,提出的问题是否有效,环节设置与本节活动的目标是否契合
2015-02-11 15:32:41 811
转载 Impala 教程
Impala 教程Set Up Some Basic .csv TablesImpala 表指向已存的数据文件查看 Impala 表结构查询 Impala 表数据加载与查询的例子加载数据查询例子例子:检查表的内容例子:聚合与连接例子: 子查询, 聚合和连接例子: INSERT 查询将外部分区表指向 HDFS 目录结构Impala 与 Hive 之
2015-02-06 15:23:28 1613 1
转载 Hadoop fs命令
Hadoop fs命令最近使用hive做一些etl工作,除了日常sql的编写,了解hadoop及hive的一些底层原理性质的东西包括调优非常有必要,一次hive调优就把原来的零散文件做了合并。首先记下hadoop常用的命令:(hadoop fs -help列出全部)1,hadoop fs –fs [local | ]:声明hadoop使用的文件系统,如果不声明的话,使用当前
2015-02-06 14:36:48 504
转载 使用yum安装CDH Hadoop集群(转载)
使用yum安装CDH Hadoop集群 2013.04.06原始地址:http://blog.javachen.com/2013/04/06/install-cloudera-cdh-by-yum/Update:2014.07.21 添加 lzo 的安装2014.05.20 修改cdh4为cdh5进行安装。2014.10.22 添加安装 cdh5.2 注意事项。1、cd
2015-02-05 10:18:49 1027
zkoss开发培训资料
2014-07-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人