Data/Web Mining
文章平均质量分 74
iteye_14216
这个作者很懒,什么都没留下…
展开
-
Programming Collective Intelligence读书笔记一
这章主要讲了什么是Collective Intelligence,机器学习。开始举了一个DVD租赁公司基于以前客户租赁电影的历史记录来推荐电影,并悬赏1百万美金作为第一个能够提高推荐系统准确率10%的人,另一个是Google通过其他网页以一个网页的链接数来作为一个相关度的标准,这让Google的搜索结果比其他竞争对手好许多倍,并以此到2004年就占有搜索市场的85%。这两个例子都在说明从大量的不同...2008-12-21 13:42:46 · 110 阅读 · 0 评论 -
HtmlUnit解析html会丢掉不可见的Element
最近使用htmlunit来作为后端抽取数据,htmlunit的DOM解析,使用xpath定位结点的过程发现有这个问题。不知道是故意这么做,还是个bug。于是对重写了前端获取xpath的代码,让它也忽略不可见Element,保持一致,可以解决我们的问题:function getXPath(element){ if (element && element.id) ...原创 2010-01-15 21:06:55 · 294 阅读 · 0 评论 -
《Web Data Mining Exploring Hyperlinks, Contents, and Usage Data》列入读书单中
liubing同学写的,web content mining的大牛,以前看过他的一些结构化数据抽取的几篇论文,今天下了看了一下,不错,列入读书的名单中。2009-09-10 18:00:08 · 209 阅读 · 0 评论 -
分享一本文本挖掘的书
好不容易从国外找到的,有需要的可以下来看看。The information age has made it easy to store large amounts of data. The proliferationof documents available on the Web, on corporate intranets, on news wires, andelsewhere is ...2009-09-21 23:28:21 · 407 阅读 · 0 评论 -
大规模数据挖掘-第三章 学习笔记一
第三章 查找相似的Items数据挖掘的一个基本问题是检测相似的Items.比如网页去重,从网页集合中找到近似重复的网页,这类网页通常是内容相同,但是有一些是关于不同站点和镜像的内容。这章从集合中找到交集,交集和集合大小的相对比率表示相似度,展开介绍相似度。我们会介绍怎样把文本文档的相似性表示为集合问题,这种技术被称为指纹方式。然后介绍了minhashing,他可以将大的集合压缩,并从压缩后...原创 2011-05-01 00:06:11 · 280 阅读 · 0 评论 -
大规模数据挖掘-第三章 学习笔记二
3.4 文档局部性敏感哈希(Locality-Sensitive Hashing for Documents)虽然我们可以通过minhash来压缩大的文档到小的签名,并且仍然能够保留每对文档的相似性。但是找到相似的对仍然很难实现,因为虽然文档数可能不是非常多,但是文档的对数会变得非常的大。如果我们的目标是计算每对文档的相似度,那么我们没有办法减少我们的工作量,虽然并行处理的方法可以减少...原创 2011-05-02 21:12:09 · 147 阅读 · 0 评论 -
[zz]数据挖掘邻域的5篇经典文章
转载自 http://www.dataminingblog.com/top-five-articles-in-data-mining/Data Mining博客最近有篇文章,列举了他们认为的数据挖掘领域的5篇经典文章。个人深为赞同,所以转载一下。An Introduction to Variable and Feature SelectionIsabelle Guyon a...原创 2011-05-12 13:50:52 · 289 阅读 · 0 评论 -
期望最大(EM)算法推导
X是一个随机向量,我们希望找到[img]http://latex.codecogs.com/gif.latex?\theta[/img]使得[img]http://latex.codecogs.com/gif.latex?P(X|\theta)[/img]取得最大值,这就是关于[img]http://latex.codecogs.com/gif.latex?\theta[/img]的最大似然估...原创 2012-08-05 19:54:33 · 309 阅读 · 0 评论 -
[ZZ]计算机视觉、模式识别、机器学习常用牛人主页链接
牛人主页(主页有很多论文代码)SergeBelongie at UC San DiegoAntonioTorralba at MITAlexeiFfros at CMUCeLiu at Microsoft Research New EnglandVittorioFerrari at Univ.of Edin...原创 2012-11-30 13:13:28 · 317 阅读 · 0 评论 -
信息抽取思考笔记
信息抽取的两种方式:基于内嵌浏览器的navigation的抽取方式和crawler下网页进行离线抽取。第一种方式可以利用浏览器强大的功能js,ajax和visual方面的信息,来提高抽取的准确性。但效率比较低,js load的时间比较长,一些情况抽取的数据下无法满足实时性服务的需要。第二种方式有较高的效率,但web的富客户化,ajax、flex等技术导致许多信息根本无法抽取。对于第...2009-12-07 21:48:16 · 173 阅读 · 0 评论 -
基于模式发现的信息抽取(1)
IEPAD:基于模式发现的信息抽取IEPAD: Information Extraction Based on Pattern DiscoveryChia-Hui Chang Shao-ChenLui摘要信息抽取技术的通常是研究通过生成Wrapper从半结构化的Web文档中提取一定的信息。类似于编译器的生成,抽取器是一个驱...2009-12-03 23:37:38 · 314 阅读 · 0 评论 -
Programming Collective Intelligence读书笔记二
这章主要讲了如何做推荐,现在推荐最常用的几种算法:Collaborative Filtering、Cluster Models、Search-Based Methods、Item-to-Item Collaborative Filtering.前两种是通过找相似的Customer,后两种通过找相似的Item.论文Amazon.com Recommendations Item-to-Item Col...2008-12-21 14:13:36 · 123 阅读 · 0 评论 -
今天听了fanwei博士的Data Mining的讲座
牛人,哥伦比亚大学PH.D,在 IBM T.J.Watson Research 任职,中途才去,主要听了How to train model和Random Descision Tree先把他的网站记一下,有空总结一下。http://www.weifan.info/http://www1.cs.columbia.edu/~wfan/...2008-12-26 12:41:47 · 129 阅读 · 0 评论 -
Programming Collective Intelligence读书笔记三 推荐系统(续)
根据前面的两个相似度的函数,我们可以计算和你相同电影的口味的top N了:[code="ruby"]def top_matches(prefs,person,n=5,similarity="sim_pearson") scores = [] #计算相似度 prefs.each_key{|other| scores ...2008-12-26 17:14:34 · 121 阅读 · 0 评论 -
一份夭折了的Information Extraction的总体设计
由于项目提前closed,我的一个Information Extraction的总体设计尚未提出便已夭折。和以前的设计差异比较大,估计被采用难度很大,放在这或许以后有用,由于机密原因技术细节基本略掉。...2008-12-26 17:46:52 · 121 阅读 · 0 评论 -
基于firefox浏览器的Deep Web Navigation总结
先占个位置,这两天准备回家,办手续,定房子什么的,比较忙,先提供个论文作为参考Deep Web Navigation in Web Data Extraction。准备分两次总结一下基于firefox和HtmlUnit的。 突然发现挖了很多坑,没种树了,说不定明年植树节才能把树种上。...2008-12-29 12:24:34 · 249 阅读 · 0 评论 -
一个很好的Machine Learning的开源工具网站
[url="http://www.mloss.org/software/"]mloss.org[/url]http://www.mloss.org/software/提供了工具的简要的介绍,开源的协议,以及下载的链接等。还提供了相关项目的一些视频介绍。...2008-12-30 10:41:30 · 243 阅读 · 0 评论 -
网页分析/挖掘中常用数据结构和算法
网页在render的时候都生成DOM树的,所以树形的数据结构用的会比较多,常见的结构:[url="http://en.wikipedia.org/wiki/Trie"]Trie[/url],[url="http://en.wikipedia.org/wiki/Radix_tree"]Patricia tree/Radix tree[/url]一种trie的压缩形式,它把只有一个孩子的结点与...2008-12-30 11:28:10 · 532 阅读 · 0 评论 -
机器学习的开放源代码项目mahout
最近看了刚发布的开放源代码项目mahout,实现了很多机器学习的算法和一些实用的系统,对于从事机器学习和web挖掘的人员来说是个很值得学习的资源。mahout是基于hadoop的,可以分布式运行,至此Lucence、Nutch、Mahout为构建开源的分布式的搜索引擎和Web挖掘提供了完整的支持,三剑合璧,威力无穷。Mahout的代码风格延续了Nutch的优良风格,代码可读性很强,包含了推荐系统、...2009-04-16 23:05:28 · 73 阅读 · 0 评论 -
[zz]推荐系统-从入门到精通
为了方便大家从理论到实践,从入门到精通,循序渐进系统地理解和掌握推荐系统相关知识。特做了个读物清单。大家可以按此表阅读,也欢迎提出意见和指出未标明的经典文献以丰富各学科需求(为避免初学者疲于奔命,每个方向只推荐几篇经典文献)。1. 中文综述(了解概念-入门篇)a) 个性化推荐系统的研究进展b) 个性化推荐系统评价方法综述2. 英文综述(了解概念-进阶篇)a) 2004ACMTo...原创 2013-04-20 14:38:07 · 163 阅读 · 0 评论