Data/Web Mining
文章平均质量分 74
iteye_14216
这个作者很懒,什么都没留下…
展开
-
Programming Collective Intelligence读书笔记一
这章主要讲了什么是Collective Intelligence,机器学习。开始举了一个DVD租赁公司基于以前客户租赁电影的历史记录来推荐电影,并悬赏1百万美金作为第一个能够提高推荐系统准确率10%的人,另一个是Google通过其他网页以一个网页的链接数来作为一个相关度的标准,这让Google的搜索结果比其他竞争对手好许多倍,并以此到2004年就占有搜索市场的85%。这两个例子都在说明从大量的不同...2008-12-21 13:42:46 · 113 阅读 · 0 评论 -
HtmlUnit解析html会丢掉不可见的Element
最近使用htmlunit来作为后端抽取数据,htmlunit的DOM解析,使用xpath定位结点的过程发现有这个问题。 不知道是故意这么做,还是个bug。 于是对重写了前端获取xpath的代码,让它也忽略不可见Element,保持一致,可以解决我们的问题: function getXPath(element){ if (element && element.id) ...原创 2010-01-15 21:06:55 · 317 阅读 · 0 评论 -
《Web Data Mining Exploring Hyperlinks, Contents, and Usage Data》列入读书单中
liubing同学写的,web content mining的大牛,以前看过他的一些结构化数据抽取的几篇论文,今天下了看了一下,不错,列入读书的名单中。2009-09-10 18:00:08 · 216 阅读 · 0 评论 -
分享一本文本挖掘的书
好不容易从国外找到的,有需要的可以下来看看。 The information age has made it easy to store large amounts of data. The proliferationof documents available on the Web, on corporate intranets, on news wires, andelsewhere is ...2009-09-21 23:28:21 · 413 阅读 · 0 评论 -
大规模数据挖掘-第三章 学习笔记一
第三章 查找相似的Items 数据挖掘的一个基本问题是检测相似的Items.比如网页去重,从网页集合中找到近似重复的网页,这类网页通常是内容相同,但是有一些是关于不同站点和镜像的内容。 这章从集合中找到交集,交集和集合大小的相对比率表示相似度,展开介绍相似度。我们会介绍怎样把文本文档的相似性表示为集合问题,这种技术被称为指纹方式。然后介绍了minhashing,他可以将大的集合压缩,并从压缩后...原创 2011-05-01 00:06:11 · 286 阅读 · 0 评论 -
大规模数据挖掘-第三章 学习笔记二
3.4 文档局部性敏感哈希(Locality-Sensitive Hashing for Documents) 虽然我们可以通过minhash来压缩大的文档到小的签名,并且仍然能够保留每对文档的相似性。 但是找到相似的对仍然很难实现,因为虽然文档数可能不是非常多,但是文档的对数会变得非常的大。 如果我们的目标是计算每对文档的相似度,那么我们没有办法减少我们的工作量,虽然并行处理的方法可以减少...原创 2011-05-02 21:12:09 · 172 阅读 · 0 评论 -
[zz]数据挖掘邻域的5篇经典文章
转载自 http://www.dataminingblog.com/top-five-articles-in-data-mining/ Data Mining博客最近有篇文章,列举了他们认为的数据挖掘领域的5篇经典文章。个人深为赞同,所以转载一下。 An Introduction to Variable and Feature Selection Isabelle Guyon a...原创 2011-05-12 13:50:52 · 313 阅读 · 0 评论 -
期望最大(EM)算法推导
X是一个随机向量,我们希望找到[img]http://latex.codecogs.com/gif.latex?\theta[/img] 使得[img]http://latex.codecogs.com/gif.latex?P(X|\theta)[/img]取得最大值,这就是关于[img]http://latex.codecogs.com/gif.latex?\theta[/img]的最大似然估...原创 2012-08-05 19:54:33 · 337 阅读 · 0 评论 -
[ZZ]计算机视觉、模式识别、机器学习常用牛人主页链接
牛人主页(主页有很多论文代码) Serge Belongie at UC San Diego Antonio Torralba at MIT Alexei Ffros at CMU Ce Liu at Microsoft Research New England Vittorio Ferrari at Univ.of Edin...原创 2012-11-30 13:13:28 · 337 阅读 · 0 评论 -
信息抽取思考笔记
信息抽取的两种方式:基于内嵌浏览器的navigation的抽取方式和crawler下网页进行离线抽取。 第一种方式可以利用浏览器强大的功能js,ajax和visual方面的信息,来提高抽取的准确性。 但效率比较低,js load的时间比较长,一些情况抽取的数据下无法满足实时性服务的需要。 第二种方式有较高的效率,但web的富客户化,ajax、flex等技术导致许多信息根本无法抽取。 对于第...2009-12-07 21:48:16 · 177 阅读 · 0 评论 -
基于模式发现的信息抽取(1)
IEPAD:基于模式发现的信息抽取 IEPAD: Information Extraction Based on Pattern Discovery Chia-Hui Chang Shao-Chen Lui 摘要 信息抽取技术的通常是研究通过生成Wrapper从半结构化的Web文档中提取一定的信息。类似于编译器的生成,抽取器是一个驱...2009-12-03 23:37:38 · 336 阅读 · 0 评论 -
Programming Collective Intelligence读书笔记二
这章主要讲了如何做推荐,现在推荐最常用的几种算法:Collaborative Filtering、Cluster Models、Search-Based Methods、Item-to-Item Collaborative Filtering.前两种是通过找相似的Customer,后两种通过找相似的Item.论文Amazon.com Recommendations Item-to-Item Col...2008-12-21 14:13:36 · 132 阅读 · 0 评论 -
今天听了fanwei博士的Data Mining的讲座
牛人,哥伦比亚大学PH.D,在 IBM T.J.Watson Research 任职, 中途才去,主要听了How to train model和Random Descision Tree 先把他的网站记一下,有空总结一下。 http://www.weifan.info/ http://www1.cs.columbia.edu/~wfan/...2008-12-26 12:41:47 · 132 阅读 · 0 评论 -
Programming Collective Intelligence读书笔记三 推荐系统(续)
根据前面的两个相似度的函数,我们可以计算和你相同电影的口味的top N了: [code="ruby"] def top_matches(prefs,person,n=5,similarity="sim_pearson") scores = [] #计算相似度 prefs.each_key{|other| scores ...2008-12-26 17:14:34 · 125 阅读 · 0 评论 -
一份夭折了的Information Extraction的总体设计
由于项目提前closed,我的一个Information Extraction的总体设计尚未提出便已夭折。 和以前的设计差异比较大,估计被采用难度很大,放在这或许以后有用,由于机密原因技术细节基本略掉。...2008-12-26 17:46:52 · 126 阅读 · 0 评论 -
基于firefox浏览器的Deep Web Navigation总结
先占个位置,这两天准备回家,办手续,定房子什么的,比较忙,先提供个论文作为参考Deep Web Navigation in Web Data Extraction。准备分两次总结一下基于firefox和HtmlUnit的。 突然发现挖了很多坑,没种树了,说不定明年植树节才能把树种上。 ...2008-12-29 12:24:34 · 263 阅读 · 0 评论 -
一个很好的Machine Learning的开源工具网站
[url="http://www.mloss.org/software/"]mloss.org[/url] http://www.mloss.org/software/ 提供了工具的简要的介绍,开源的协议,以及下载的链接等。 还提供了相关项目的一些视频介绍。...2008-12-30 10:41:30 · 246 阅读 · 0 评论 -
网页分析/挖掘中常用数据结构和算法
网页在render的时候都生成DOM树的,所以树形的数据结构用的会比较多,常见的结构: [url="http://en.wikipedia.org/wiki/Trie"]Trie[/url], [url="http://en.wikipedia.org/wiki/Radix_tree"]Patricia tree/Radix tree[/url]一种trie的压缩形式,它把只有一个孩子的结点与...2008-12-30 11:28:10 · 561 阅读 · 0 评论 -
机器学习的开放源代码项目mahout
最近看了刚发布的开放源代码项目mahout,实现了很多机器学习的算法和一些实用的系统,对于从事机器学习和web挖掘的人员来说是个很值得学习的资源。mahout是基于hadoop的,可以分布式运行,至此Lucence、Nutch、Mahout为构建开源的分布式的搜索引擎和Web挖掘提供了完整的支持,三剑合璧,威力无穷。Mahout的代码风格延续了Nutch的优良风格,代码可读性很强,包含了推荐系统、...2009-04-16 23:05:28 · 80 阅读 · 0 评论 -
[zz]推荐系统-从入门到精通
为了方便大家从理论到实践,从入门到精通,循序渐进系统地理解和掌握推荐系统相关知识。特做了个读物清单。大家可以按此表阅读,也欢迎提出意见和指出未标明的经典文献以丰富各学科需求(为避免初学者疲于奔命,每个方向只推荐几篇经典文献)。 1. 中文综述(了解概念-入门篇) a) 个性化推荐系统的研究进展 b) 个性化推荐系统评价方法综述 2. 英文综述(了解概念-进阶篇) a) 2004ACMTo...原创 2013-04-20 14:38:07 · 186 阅读 · 0 评论