水木清华社区招聘信息定时抓取

水木上有很活跃的招聘者在发布招聘信息,但是水木的速度却很慢,于是试着将其抓取下来,这样子浏览的速度就快了很多,而且将其部署在SAE上面,可以只查看需要的信息,降低了本地流量耗费,在新浪云平台上启用了两个JVM,云豆估计能够用的。

在浏览器中请求水木时候,它会分不同的数据返回,首先就是页面的框架和广告,最后才是内容!分析了它的返回数据的构成之后,就可以利用Jsoup去请求了,取回来的数据直接进行抽取和过滤,留下需要的数据,然后存到数据库中去。最后再显示到页面上来。整个过程大概就是如此。

同时觉得要是手动去抓取的话,就太没有意思了,于是设置了定时器,可以定时地去抓取数据并保存。每一个小时抓取一次,这样算是差不多能追上论坛的更新了吧,(突然想到还可以晚上的时间段休息,降低消耗)。

突然想到,可以加个功能,每一篇招聘信息中几乎都会有邮箱地址,可以解析出来,准备好一个简历模板,自动批量发简历!

之后可能会添加别的网站的数据。

界面简单微笑

可能会有很多bug敲打

具体可以移步:http://huntinfo.sinaapp.com/

完整代码放在 :https://github.com/laozhaokun/huntinfo

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值