mop原创频道的文章防盗手段研究

      这几天需要些小说原创数据,偶然看到mop原创作品很不错,打算批量转点,刚开始以为是生成了静态页,用php函数file_get-contents获取来的内容比正文内容少了很长一段,看了下html的js,很简单,不存在js操作显示只类的手段,不过发现没有cookie直接浏览显示页面的话,会转到首页去,这个也是js操作的,最后这个不是静态页,通过rewrite模拟了个静态页html,正则写的很死,而且直接访问不带参数的jsp文件还会报错,这个暂时不管它,继续研究。

     保存下仔细研究,结果才发现里面有个ajax,同步获取了内容innerHTML进去,当然保存下来,看不到后部分内容了,把相对地址补全,访问就看到了后半正文,批量采集的时候,加上这个过程就ok了。

    mop这样做,我想是加快代码下载吧,分几次下载,缩短了客户等待时间,同时在js做请求之前,又有相当文字,也便于搜索引擎搜索到这个页面,还能防止一些程序自动采集,当然人工是防止不了的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值