关闭

notepad++ 64位安装json插件JStool

64bit的 notepad++不支持plugin manager了,只能手动安装插件 json格式化工具:JSTool http://www.softpedia.com/get/Office-tools/Text-editors/Junwen-JSMin.shtml, 下载x64 unicode版本   dll放进plugin目录里就搞定了...
阅读(333) 评论(0)

[搬运]台湾大学机器学习课程 by 李宏毅

台湾大学电机系李宏毅老师讲的机器学习课程,含有deep learning相关内容,深入浅出,建议选择性学习。...
阅读(8146) 评论(0)

用elasticsearch和kibana 进行简单的实时数据报表分析

elasticsearch+kibana能帮助你轻松完成一个实时日志报表的功能。es需要制定自己的template, kibana要注意时区问题。...
阅读(8188) 评论(1)

一种简单的计算item相似度算法

计算item之间相似度是个有意义的工作,比如词的相似度就有很多应用场景。...
阅读(2474) 评论(4)

spseg-基于词库的高召回索引型分词器

spseg就是碎片分词的缩写,是一个基于词库的,能保证召回率的索引型分词器,保证分词一致性。 通常进行索引的分词器都是基于词库的,目前主流的分词器ik, ansj, mmseg, jieba等等都是。这些分词器都提供了智能分词效果,是把句子切成不产生交集的词与字,也就是消除了歧义。虽然各家算法不一样,但基本都要枚举出所有词,再选择保留哪些。既然是算法消歧,就不能保证非常准,例如"ABCD...
阅读(1507) 评论(0)

Solr应用之电商商品搜索备忘

把以前做电商商品搜索的经验总结一下,...
阅读(2726) 评论(1)

倒排链上的查询剪枝技术学习总结

背景 我最近对海量高维数据检索产生了兴趣,...
阅读(2249) 评论(0)

对GraphChi的Parallel Sliding Window的理解与随想

GraphChi设计成可以在个人计算机上高效进行大规模计算的框架,其中在模型不能一次性读入内存的时候,用到了PSW算法,核心是用连续读写来代替的随机读写。在我自己写单机算法时候也考虑过模型如果内存装不下问题,当时正好看到graphchi的PPT,也就想明白是怎么做到的,虽然我没有完整读完PSW的资料,但我发现我前端时间在做feluca设计的数据划分方式其实和PSW本质一样的,所以我感觉自己也算理解...
阅读(1799) 评论(0)

一个简易的数据挖掘计算平台项目: feluca

业余数据挖掘项目feluca想法的完整记录...
阅读(2543) 评论(1)

利用Solr完成向量乘以矩阵功能:以协同过滤算法ItemCF为例

很多应用的计算最终都转化为矩阵相乘来完成,例如推荐算法中的协同过滤就可以套上去。协同过滤(collaborative filtering)是推荐系统中一类广泛使用的方法,协同过滤中两种比较出名的方法item-based CF、user-based CF。itemCF方法更简单,推荐理由也更温和,将是本文介绍的实践内容。...
阅读(2446) 评论(0)

配置Solr中文分词器IK以及ansj,支持动态修改用户词库。

经常看到不少人问solr的IK分词如何配置,如何实现中文动态词库添加这类问题,中文分词看来还是solr使用的一个容易卡住的地方。其实solr自带中文分词smartcn,它是个ictclas智能分词的java版。如果想体验一下smartcn的效果是比较简单的,配上对应的tokenizerFactory就可以了,但smartcn不支持动态增加词库。 我们都知道一般词库都是单例,想动态修改词库要么保证...
阅读(6781) 评论(2)

hadoop,hbase,hive 安装snappy压缩

最近又安装了一次hadoop系列,以前装过几次,但总也是磕磕碰碰的,本来想这次安装一步到位,可惜以前记录不够详细,中间还是过程还是有些遗漏,这次把过程详细记录起来。hadoop-1.1.2,  hbase-0.95-hadoop1, hive-0.10 + snappy压缩。中间遇到不少坑,记录下来;由于这次目标是三件套一步到位,因此配置的时候是一块配置了,三台ubuntu机器分别为zmhad...
阅读(3536) 评论(2)

自动补全(智能提示)原理与实现

自动补全,英文叫autocomplete,好像也叫智能提示,就是用户在输入框敲一个字符会弹出下拉列表提示候选词给用户,方便用户输入,提升用户体验。              网上多是JS如何实现,用ajax请求拿到数据就可以了,这里分享一下后台实现的一些思路。如果对性能和效果要求不高的话,可以直接在数据库中用like的方式去匹配候选词集合;或者在一个检索系统上也可以通过查询前缀...
阅读(8047) 评论(9)

搜索词纠错(拼写检查)、相关搜索的原理与实现

相关搜索是检索功能的一个扩展,用来告诉用户自己输入查询词的情况。 如果输入错了,可能会纠错提示用户:“想找的是不是”      。 另外还会在显著位置提供与输入查询词相关的其他查询词,例如百度结果页下面的提示,       而对于电商网站这两个功能会合在一起,下面分别说说我对这两个任务的理解。 一、纠错功能,英文叫做spellcheck,在英文上做纠错比较直接,就是看单词的...
阅读(5045) 评论(0)

java远程调试、监控虚拟机

在开发环境写好并测试过的服务程序,部署到服务器去,结果未必理想,一是数据源可能必须在服务器上获取,二是可能会出现开发机没见过的问题,所以有必要知道一些远程调试和分析的方法;最近查阅了一些资料,现在就把过程记录一下。 一、 在eclipse中远程调试 1.1 在你的 JAVA启动命令后加入-server -Xdebug -Xrunjdwp:transport=dt_socket,serv...
阅读(2129) 评论(0)

solr学习笔记(二):进阶

这次讲讲solr4.0最新的云,其中solrj那段引用了其他人的结论,以后可能还会调整一下内容。 到1月23号已经更新了4.1,solrcloud改变不少,尤其是修复了一些bug, 4月最新版是4.3,也是增加了很多内容 1. solrcloud     jetty启动: wiki有教程;         实验遇到的问题:1. 在windows上不同jetty带起的solr实例注册...
阅读(4141) 评论(0)

solr学习笔记(一):入门

Solr是一个比较成熟和热门的搜索引擎解决方案,之前的博客也提到过。最近在学习搜索开发也查阅过solr的资料,相对elasticsearch来说资料更全,案例更多也更让人放心,我现在还没发做很细致的比较,但个人认为中小型搜索用solr可能会更合适,毕竟更成熟可靠一些。      介绍Solr的资料也有不少,比如书籍就有 Solr.3.Enterprise.Search.Server和Apache...
阅读(3351) 评论(0)

kaggle competition 之 Titanic: Machine Learning from Disaster

Kaggle是一个数据科学竞赛平台(making data science a sport),在上面,很多机构会发布研究问题和数据集提供大家解决,有些会有报酬。第一次看到这个网站就觉得它会火,在信息爆炸时代,通过挖掘历史数据来对业务提供更有效的服务已经是大势所趋。而kaggle上的题目都是偏向数据挖掘类的,这相比ACM或者projecteuler这种纯算法的题要更有专业和更开放;一个题一般都会有一...
阅读(3279) 评论(3)

elasticsearch学习入门

这几年,搜索的开发门槛越来越低,每个语言都有开源的检索工具包,而且功能越来越全,完整的解决方案也越来越多、越来越好用,比如lucene上就有solr, elasticsearch, sensei等。它们对于绝大部分的需求应该说都覆盖了,解放了直接在检索工具包上的开发工作量,让人可以更多关注业务上的开发。个人比较看好elasticsearch(简称ES),ES的使用非常简单,让人感觉更多地在使用...
阅读(12512) 评论(3)

一个数据挖掘算法的项目:dami

(更新于2012/11/15)关注和学习数据挖掘不少年,现在数据挖掘算法已经非常多了,比较出名的基本都能找到实现好的。掌握一个算法原理十分重要,但我觉得实现一遍算法对于算法的如何适用数据才是最有帮助的。一些挖掘工具遇到大量点的数据集就吃不消,可能是对内存不珍惜,可能是对计算不节俭等等。感觉到写出一个能在海量规模下实用的算法应该还是有意义,能锻炼技术。最近业余时间多一些,也就开始想把之前工作之余写过...
阅读(4232) 评论(3)
36条 共2页1 2 下一页 尾页
    个人资料
    • 访问:156633次
    • 积分:2032
    • 等级:
    • 排名:千里之外
    • 原创:33篇
    • 转载:0篇
    • 译文:3篇
    • 评论:119条
    最新评论
    友情链接