数据挖掘
文章平均质量分 81
HarryHuang1990
勤勤恳恳兢兢业业...
展开
-
Web数据自动采集及其应用研究
1. Web数据自动采集的理论基础 Web 可以说是目前最大的信息系统,其数据具有海量、多样、异构、动态变化等特性。因此给人们要准确迅速的获得自己所需要的数据越来越难,尽管目前有各种搜索引 擎,但是搜索引擎在数据的查全率考虑较多,而查准率不足,而且很难进一步挖掘深度数据。因此人们开始研究如何更进一步获取互联网上某一个特定范围的数据, 从信息搜索到知识发现。 1.1相关概念 Web转载 2012-01-11 20:55:09 · 1411 阅读 · 0 评论 -
自己动手编写CSDN博客备份工具-blogspider
作者:gzshun. 原创作品,转载请标明出处! 来源:http://blog.csdn.net/gzshun 网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。 网络爬虫最重要的任务,就是从互联网搜索出需要的信息,将网页抓取下来并分析,很多搜索引擎,比如百度,谷歌,后台转载 2012-02-01 15:17:39 · 690 阅读 · 0 评论 -
自己动手编写CSDN博客备份工具-blogspider之源码分析(1)
作者:gzshun. 原创作品,转载请标明出处! 来源:http://blog.csdn.net/gzshun 前一篇博文《自己动手编写CSDN博客备份工具-blogspider》介绍了blogspider的使用,使用方法很简单,blogspider可以将自己的CSDN博客下载到本地,这里也只提供最基本的功能。这两天有很多哥们儿给我发邮件,想要blogspider的源码,该程序是开源的,有转载 2012-02-02 11:15:45 · 927 阅读 · 0 评论 -
自己动手编写CSDN博客备份工具-blogspider之源码分析(3)
作者:gzshun. 原创作品,转载请标明出处! 来源:http://blog.csdn.net/gzshun 周星驰:剪头发不应该看别人怎么剪就发神经跟流行,要配合啊!你看你的发型,完全不配合你的脸型脸型又不配合身型,身型又和发型完全不搭,而且极度不配合啊!!欢哥!你究竟要怎么样啊? 《算死草》 在开篇,先happy下,新年到,开开心心过好年! 已经写了几篇文章,把代码贡献给有需要转载 2012-02-02 11:18:42 · 733 阅读 · 0 评论 -
自己动手编写CSDN博客备份工具-blogspider之源码分析(2)
作者:gzshun. 原创作品,转载请标明出处! 来源:http://blog.csdn.net/gzshun 唐僧:你想要啊?悟空,你要是想要的话你就说话嘛,你不说我怎么知道你想要呢,虽然你很有诚意地看着我,可是你还是要跟我说你想要的。你真的想要吗?那你就拿去吧!你不是真的想要吧?难道你真的想要吗?…… 悟空:我Kao! 在开篇,先happy下,有个好心情,才能天天向上,奋转载 2012-02-02 11:17:12 · 777 阅读 · 0 评论 -
LDA主题模型用于BUG修复人推荐《DRETOM: developer recommendation based on topic models for bug resolution》
这项研究的论文来自PROMISE 2012,点击下载论文《DRETOM: developer recommendation based on topic models for bug resolution》 LDA自从2003年由David Blei(刚发现Andrew Ng竟然也是提出者之一)提出后就一直火的不行,特别在机器学习和文本挖掘领域被广泛研究和应用,造诣可圈可点。LDA能够从文本中学习出潜在的topics,挖掘文本的潜在结构。该模型认为在某个特定的语料集中,任意一篇doc都是由给定的N个topi原创 2013-08-10 18:52:40 · 3580 阅读 · 2 评论 -
图搜索-使用文本关键词搜索connected API subgraph
今天跟大家分享一篇挺有意思的关于graph searching的papar。这片paper来自FSE2012。有兴趣的童鞋请下载详读。《Searching Connected API Subgraph via Text Phrase》。 我们在软件开发过程中一般都会去第三方的API库找我们所需要的API。这些第三方的API库经过充分的测试可以说非常可靠,能够帮助我们提高软件开发的效率,确保程序的质量。但是想找到合适的API并不那么容易,因为第三方的API库一般都非常庞大且非常的复杂,特别对于新手来说更是难原创 2013-09-07 14:08:34 · 1690 阅读 · 0 评论