从网站上动态抓取内容的大概思路

大致抓取分为两类
一、网站源码中包含目标的内容
解决办法:
1.直接通过代码通过URL,模拟浏览器请求服务器
2.用Jsoup去解析服务器返回的文件
3.获得目标信息
二、目标内容包含在JavaScript请求的返回结果中
解决办法
1.通过使用HTTP Analyzer可以截获JS返回的数据,并在Response Content中显示,同时可以看到JS请求的网页地址(我们需要用代码模拟请求的真正URL)。
2.通过代码模拟浏览器请求服务器的动作
3.之后操作与第一种问题解决方法相同
具体代码操作详细见:
http://blog.csdn.net/zgyulongfei/article/details/7909006
感谢这位博主的分享
发布了8 篇原创文章 · 获赞 5 · 访问量 6292
展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 书香水墨 设计师: CSDN官方博客

分享到微信朋友圈

×

扫一扫,手机浏览