数据挖掘和推荐
softwarehe
这个作者很懒,什么都没留下…
展开
-
libsvm文本分类使用笔记(一)
参考http://blog.csdn.net/marising/article/details/5844063,按其步骤一步步往前走,记录中间步骤和遇到的问题第一步:cmake下载和安装 从http://www.cmake.org下载最新版本,解压,./configure,make,make install第二步:crf++下载和安装 从 http:原创 2012-08-08 16:45:32 · 837 阅读 · 0 评论 -
c++ hac例子
http://blog.o-x-t.com/2009/01/23/hierarchical_clustering/下面是对其代码阅读笔记:扁平聚类 -- 无结构。高效,o(n)层次聚类 -- 不需要事先指定簇的数目,效率低,至少o(n^2)算法 -- single link complete link group average centroid原创 2013-01-10 17:13:06 · 830 阅读 · 0 评论 -
推荐系统的循序进阶读物(从入门到精通)
原文地址:http://blog.sciencenet.cn/blog-210641-508634.html推荐系统-从入门到精通为了方便大家从理论到实践,从入门到精通,循序渐进系统地理解和掌握推荐系统相关知识。特做了个读物清单。大家可以按此表阅读,也欢迎提出意见和指出未标明的经典文献以丰富各学科需求(为避免初学者疲于奔命,每个方向只推荐几篇经典文献)。1. 中文综述(转载 2013-01-18 09:35:54 · 897 阅读 · 0 评论 -
布隆过滤器——Bloom Filter
原文地址:http://imtinx.iteye.com/blog/1290636谷歌的数学之美系列曾经提到过一种数据结构叫做bloomfilter,翻译成中文就是布隆过滤,文中使用布隆过滤器来过滤黑名单。后来我在毕业设计中也用到了它来过滤重复的URL,避免网络爬虫重复抓取。再后来在单位又一次的用到了bloomfilter来过滤用户的重复访问。随着海量数据时代的到来,布隆过滤器应用的场转载 2013-02-18 09:58:38 · 652 阅读 · 0 评论 -
新词发现
算法:* 计算总词数 -- 是包括单个的字吗* 过滤掉单个的字* 过滤掉出现频率小于阈值的词* 如何计算凝固程度首先取这个词分第一个字和剩下的,计算其出现频率乘积分最后一个字和剩下的,计算其出现频率乘积取二者的最小值和这个词的出现频率比值* 如何计算自由度右邻字信息熵计算首先取这个词取字串为从0到n-2等于这个词的所有词先排好序计算量很小原创 2013-02-19 17:51:21 · 769 阅读 · 0 评论 -
EM算法
http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html转载 2013-02-19 22:07:55 · 426 阅读 · 0 评论 -
推荐系统:关联规则挖掘
http://hi.baidu.com/fandywang_jlu/item/4fa48ec80727bb0dac092fe3转载 2013-02-25 09:42:23 · 564 阅读 · 0 评论 -
crf开源实现
crfsuitecrfpp可以做不少工作,其中crfsuite可以用来做新词发现等,研究下,crfpp据说太慢了,不爽今天从微博上看到,下面这个更好:http://wapiti.limsi.fr/原创 2013-02-19 15:23:42 · 961 阅读 · 0 评论