数据收集
文章平均质量分 91
Towan
这个作者很懒,什么都没留下…
展开
-
分析ssologin.js
既然我们知道了servertime跟nonce是用于加密的,不妨在文件中搜一下这两个关键字,一搜找到了好东西: 翻回去上文看看,表单中有个su和sp,都在这里了,可以看到su使用的是base64加密方式;而su就稍微复杂一点了, if中的是新浪当前版本的密码加密方式rsa2的代码,而else中的是就版本sha加密的代码,我们只需要关心if中的内容, 加密过程很简单,先是生成一个翻译 2013-10-24 20:29:45 · 2259 阅读 · 1 评论 -
低成本服务器搭建千万级数据采集系统
有这样一个采集系统的需求,达成指标: 需要采集30万关键词的数据 、微博必须在一个小时采集到、覆盖四大微博(新浪微博、腾讯微博、网易微博、搜狐微博)。为了节约客户成本,硬件为普通服务器:E5200 双核 2.5G cpu, 4 G DDR3 1333内存,硬盘 500G SATA 7200转硬盘。数据库为mysql。在这样的条件下我们能否实现这个系统目标?当然如果有更好的硬件不是这个文章阐述的内容原创 2013-10-21 16:36:26 · 1991 阅读 · 2 评论 -
微博抓取策略及实现
微博获取的方法不同于一般的网页获取,一般网页总是给定一个初始URL,按照一定的规则例如深度优先、广度优先、大站优先、小站优先等方法进行扩展其URL地址进行爬取数据,而微博抓取的实质为在一个给定的微博URL之中,直接抓取页面,并对页面进行解析,例如获取粉丝数、微博数、关注数、发表的帖子等等数据。其抓取的方法本质上可以归结为两种:直接调用官方给定的开放api和间接进行硬性爬取。下面以新浪微博为例原创 2013-11-14 13:33:47 · 9992 阅读 · 7 评论