数据抓取的一些心得

最近做了一个小网站,主要就是一些数据抓取的服务,记下一些心得,也算是分享吧

我在抓取数据的时候主要用到了两种方法

(1)直接使用http协议,java,C++,python都很容易实现,分析http链接的工具有使用火狐的firebug,也有IE的(就是直接点F12)开发人员工具,还有Fiddler,个人感觉ie的比较好用一点。只要能正确的找到那个url,其他都好说,就是改一改参数就行了。但是这种方法有个问题,就是有的网站的数据时加密的,就不好弄了,有的甚至连url也是加密的,虽然狠着劲的找,确实能在js或者什么地方能找到加密算法,但是真的很麻烦,那现在就只能图省事用第二中方法了。

(2)就是模拟浏览器,意思就是我们平时怎么浏览网页的,就让浏览器做同样的事情就行了,python里面封装了webkit,省事,不用编译webkit了,本人也编译过,好长时间之后也成功了,但是就是不知道怎么用,后来知道qt封装了webkit,pytyon里面有pyqt ,算了,就用它吧,当然,python也可以操作ie,windows可以试一试pamie。不过这种方法也有缺点,就是效率低,速度慢。

先写这么多,最后说一下我们做的网站,可信数据采集或者可信数据采集


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值