职友集开放招聘信息协议

logo.gif

职位搜索引擎职友集开放招聘信息协议,消息发布时间是12月6日,内容包括:

人才网站只需要按照职友集提供的格式制作一个动态的xml文件,并将其地址提交给职友集即可。“提交之后就可以一劳永逸了,这就相当于网站发布的招聘信息被搜索引擎订阅,一旦有更新,职友集将第一时间进行抓取。”

这种方式类似百度互联网新闻开放协议

从目前来看,流量上强势的平台推出的协议较有可能被弱势网站接受,Jobui是否能够有足够大的影响力让其它人才网站主动接受,可能还有一定困难,尤其是我们互联网发展的风气并不重视这种开放性的、标准性的代码写作,而是各自为政。但是通过合作和主动推广的方式,Jobui应有较有可能获得一些人才网站的认可。最后,这个协议由Jobui一家推动,而不是一个中间、开放、协议性的发展方式,也局限了这类型协议的发展。


热爱互联网,你的评论对i.blogbeta很重要!

首先需要了解职友集网站的页面结构和数据格式,可以使用Chrome浏览器的开发者工具进行查看。通过分析可以得知,职友集的职位信息存放在一个JSON格式的数据中,而这个JSON数据又是通过Ajax请求从后台获取的。因此,我们可以使用WebMagic的HttpClientDownloader来模拟发送Ajax请求,从而获取职位信息。 以下是爬取职友集java开发岗位招聘数据的代码: ``` import us.codecraft.webmagic.*; import us.codecraft.webmagic.downloader.HttpClientDownloader; import us.codecraft.webmagic.pipeline.ConsolePipeline; import us.codecraft.webmagic.pipeline.JsonFilePipeline; import us.codecraft.webmagic.processor.PageProcessor; import us.codecraft.webmagic.selector.JsonPathSelector; public class ZhilianProcessor implements PageProcessor { private Site site = Site.me().setRetryTimes(3).setSleepTime(1000); @Override public void process(Page page) { // 解析JSON数据,获取职位信息 String jsonStr = page.getRawText(); JsonPathSelector jsonPathSelector = new JsonPathSelector("$.data[*]"); page.putField("jobs", jsonPathSelector.selectList(jsonStr)); // 获取下一页的URL,并加入到待爬取队列中 JsonPathSelector nextPageSelector = new JsonPathSelector("$.next_page_url"); String nextPageUrl = nextPageSelector.select(jsonStr); if (nextPageUrl != null) { page.addTargetRequest(nextPageUrl); } } @Override public Site getSite() { return site; } public static void main(String[] args) { // 设置起始URL String startUrl = "https://www.jobui.com/webapi/position?job_kwd=java&job_area=010000&area=010000&page=1&sortby=&sortby_desc=&n=0"; // 创建Downloader,模拟发送Ajax请求 HttpClientDownloader downloader = new HttpClientDownloader(); downloader.setProxyProvider(SimpleProxyProvider.from(new Proxy("127.0.0.1", 1080))); // 创建Spider Spider spider = Spider.create(new ZhilianProcessor()) .addUrl(startUrl) .setDownloader(downloader) .addPipeline(new ConsolePipeline()) .addPipeline(new JsonFilePipeline("D:\\webmagic\\")) .thread(5); // 启动爬虫 spider.run(); } } ``` 在代码中,我们首先设置了起始URL,即第一页的职位信息的Ajax请求URL。然后创建了一个HttpClientDownloader对象,并设置了代理服务器。接着创建了一个Spider对象,设置了爬虫的起始URL、Downloader、Pipeline和线程数,并调用run()方法启动爬虫。 在PageProcessor的process()方法中,我们使用JsonPathSelector来解析JSON数据,获取职位信息,并将其保存到Page对象中的jobs字段中。然后再从JSON数据中获取下一页的URL,如果存在,则加入到待爬取队列中。 在本例中,我们将职位信息保存到了控制台和JSON文件中,可以根据需要进行调整。另外,由于职友集网站有反爬虫机制,因此可能需要设置一些反爬虫策略,比如设置User-Agent、Cookies等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值