mop原创频道的文章防盗手段研究

      这几天需要些小说原创数据,偶然看到mop原创作品很不错,打算批量转点,刚开始以为是生成了静态页,用php函数file_get-contents获取来的内容比正文内容少了很长一段,看了下html的js,很简单,不存在js操作显示只类的手段,不过发现没有cookie直接浏览显示页面的话,会转到首页去,这个也是js操作的,最后这个不是静态页,通过rewrite模拟了个静态页html,正则写的很死,而且直接访问不带参数的jsp文件还会报错,这个暂时不管它,继续研究。

     保存下仔细研究,结果才发现里面有个ajax,同步获取了内容innerHTML进去,当然保存下来,看不到后部分内容了,把相对地址补全,访问就看到了后半正文,批量采集的时候,加上这个过程就ok了。

    mop这样做,我想是加快代码下载吧,分几次下载,缩短了客户等待时间,同时在js做请求之前,又有相当文字,也便于搜索引擎搜索到这个页面,还能防止一些程序自动采集,当然人工是防止不了的。

已标记关键词 清除标记
©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页