数据挖掘
文章平均质量分 91
Towan
天下之至柔,驰骋天下之至坚。
展开
-
微博抓取
1.微博抓取的含义2.微博抓取的数据 微博作者、作者VIP判断、微博内容、发布时间、抓发评论数、如果是转发的微博还包括转发者及转发者说的话的详细信息3.微博抓取的工具a.ROST 新浪定时监控工具,基于新浪微博Oauth模式认证下调用新浪微博api抓取新浪微博数据,支持实时(最少5秒钟抓取更新一次)抓取数据4.微博抓取的方法a.正则表达式,自己做原创 2013-10-10 13:58:31 · 2098 阅读 · 0 评论 -
利用Heritrix构建特定站点爬虫
http://www.ibm.com/developerworks/cn/opensource/os-cn-heritrix/转载 2013-10-14 16:52:16 · 1536 阅读 · 0 评论 -
微博登陆过程再次分析
微博很火啊,开发了一个微博爬虫应用有的人 会说 新浪微博 不是API吗,为什么还要取单独开发爬虫系统呢如果你用过新浪微博API,你就知道,有着诸多限制,功能少,信息少,信息不全,调用次数限制,重新授权等等 一系列的问题,最主要是返回的信息量少喝调用次数限制,还有针对IP的.我们设计这个爬虫的初衷是新浪微博的所有信息,目前是70%,为什么不是100%呢,说到底 还是资源问题了.新转载 2013-10-25 11:02:24 · 2366 阅读 · 0 评论 -
低成本服务器搭建千万级数据采集系统
有这样一个采集系统的需求,达成指标: 需要采集30万关键词的数据 、微博必须在一个小时采集到、覆盖四大微博(新浪微博、腾讯微博、网易微博、搜狐微博)。为了节约客户成本,硬件为普通服务器:E5200 双核 2.5G cpu, 4 G DDR3 1333内存,硬盘 500G SATA 7200转硬盘。数据库为mysql。在这样的条件下我们能否实现这个系统目标?当然如果有更好的硬件不是这个文章阐述的内容原创 2013-10-21 16:36:26 · 1991 阅读 · 2 评论 -
编程能力与编程年龄
程序员这个职业究竟可以干多少年,在中国这片神奇的土地上,很多人都说只能干到30岁,然后就需要转型,就像《程序员技术练级攻略》这篇文章很多人回复到这种玩法会玩死人的一样。我在很多面试中,问到应聘者未来的规划都能听到好些应聘都说程序员是个青春饭。因为,大多数程序员都认为,编程这个事只能干到30岁,最多35岁吧。每每我听到这样的言论,都让我感到相当的无语,大家都希望能像《21天速成C++》那样速成,好多转载 2013-11-21 16:31:55 · 1028 阅读 · 0 评论 -
信息检索及数据挖掘必备知识总结
信息检索和网络数据领域(WWW, SIGIR, CIKM, WSDM, ACL, EMNLP等)的论文中常用的模型和技术总结引子:对于这个领域的博士生来说,看懂论文是入行了解大家在做什么的研究基础,通常我们会去看一本书。看一本书固然是好,但是有一个很大的缺点:一本书本身自成体系,所以包含太多东西,很多内容看了,但是实际上却用不到。这虽然不能说是一种浪费,但是却没有把有限力气花在刀口上。原创 2014-01-01 15:07:12 · 1355 阅读 · 0 评论 -
微博抓取策略及实现
微博获取的方法不同于一般的网页获取,一般网页总是给定一个初始URL,按照一定的规则例如深度优先、广度优先、大站优先、小站优先等方法进行扩展其URL地址进行爬取数据,而微博抓取的实质为在一个给定的微博URL之中,直接抓取页面,并对页面进行解析,例如获取粉丝数、微博数、关注数、发表的帖子等等数据。其抓取的方法本质上可以归结为两种:直接调用官方给定的开放api和间接进行硬性爬取。下面以新浪微博为例原创 2013-11-14 13:33:47 · 9992 阅读 · 7 评论 -
数据挖掘技术、方法及应用
目录(?)[+]一幅凝固的油画 Keywords:data mining,Knowledge discovery in databases,DM,KDD,CRISP-DM,Internet概念基于Internet的全球信息系统的发展使我们拥有了前所未有的丰富数据。大量信息在给人们带来方便的同时也带来了一大堆问题:第一是信息过量,难以消化;第二是信息真假难以辨识;第三转载 2014-06-09 21:05:58 · 46074 阅读 · 1 评论