![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘和推荐
softwarehe
这个作者很懒,什么都没留下…
展开
-
libsvm文本分类使用笔记(一)
参考http://blog.csdn.net/marising/article/details/5844063,按其步骤一步步往前走,记录中间步骤和遇到的问题 第一步:cmake下载和安装 从http://www.cmake.org下载最新版本,解压,./configure,make,make install 第二步:crf++下载和安装 从 http:原创 2012-08-08 16:45:32 · 822 阅读 · 0 评论 -
c++ hac例子
http://blog.o-x-t.com/2009/01/23/hierarchical_clustering/ 下面是对其代码阅读笔记: 扁平聚类 -- 无结构。高效,o(n) 层次聚类 -- 不需要事先指定簇的数目,效率低,至少o(n^2) 算法 -- single link complete link group average centroid原创 2013-01-10 17:13:06 · 797 阅读 · 0 评论 -
推荐系统的循序进阶读物(从入门到精通)
原文地址:http://blog.sciencenet.cn/blog-210641-508634.html 推荐系统-从入门到精通 为了方便大家从理论到实践,从入门到精通,循序渐进系统地理解和掌握推荐系统相关知识。特做了个读物清单。大家可以按此表阅读,也欢迎提出意见和指出未标明的经典文献以丰富各学科需求(为避免初学者疲于奔命,每个方向只推荐几篇经典文献)。 1. 中文综述(转载 2013-01-18 09:35:54 · 883 阅读 · 0 评论 -
布隆过滤器——Bloom Filter
原文地址:http://imtinx.iteye.com/blog/1290636 谷歌的数学之美系列曾经提到过一种数据结构叫做bloomfilter,翻译成中文就是布隆过滤,文中使用布隆过滤器来过滤黑名单。后来我在毕业设计中也用到了它来过滤重复的URL,避免网络爬虫重复抓取。再后来在单位又一次的用到了bloomfilter来过滤用户的重复访问。随着海量数据时代的到来,布隆过滤器应用的场转载 2013-02-18 09:58:38 · 635 阅读 · 0 评论 -
新词发现
算法: * 计算总词数 -- 是包括单个的字吗 * 过滤掉单个的字 * 过滤掉出现频率小于阈值的词 * 如何计算凝固程度 首先取这个词 分第一个字和剩下的,计算其出现频率乘积 分最后一个字和剩下的,计算其出现频率乘积 取二者的最小值 和这个词的出现频率比值 * 如何计算自由度 右邻字信息熵计算 首先取这个词 取字串为从0到n-2等于这个词的所有词 先排好序计算量很小原创 2013-02-19 17:51:21 · 751 阅读 · 0 评论 -
EM算法
http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html转载 2013-02-19 22:07:55 · 408 阅读 · 0 评论 -
推荐系统:关联规则挖掘
http://hi.baidu.com/fandywang_jlu/item/4fa48ec80727bb0dac092fe3转载 2013-02-25 09:42:23 · 550 阅读 · 0 评论 -
crf开源实现
crfsuite crfpp 可以做不少工作,其中crfsuite可以用来做新词发现等,研究下,crfpp据说太慢了,不爽 今天从微博上看到,下面这个更好: http://wapiti.limsi.fr/原创 2013-02-19 15:23:42 · 947 阅读 · 0 评论