参考http://www.cnblogs.com/weibaar/p/4302870.html#3687411
因为拉勾网已经改版,所以参考的案例已经失效。
可能涉及到动态网络抓取的问题,后面有机会再探索,具体机制同学解释如下:关于某方面的内容所有的网址都一样,而数据在后台数据库无法直接访问,因此URL抓取已经不好用。但是每一个工作的网页还是静态的,简单粗暴可以直接抓所有的数据,然后把数据都放在自己电脑上再进行处理。但是显然不是特别好,如果以后遇到好的解决方法再继续。
参考http://www.cnblogs.com/weibaar/p/4302870.html#3687411
因为拉勾网已经改版,所以参考的案例已经失效。
可能涉及到动态网络抓取的问题,后面有机会再探索,具体机制同学解释如下:关于某方面的内容所有的网址都一样,而数据在后台数据库无法直接访问,因此URL抓取已经不好用。但是每一个工作的网页还是静态的,简单粗暴可以直接抓所有的数据,然后把数据都放在自己电脑上再进行处理。但是显然不是特别好,如果以后遇到好的解决方法再继续。