伪代码写出java程序的接口_【学习分享】Java爬虫伪代码

原标题:【学习分享】Java爬虫伪代码

之前一直有个同事想让我教教他怎么把csdn上的数据爬下来的,我在这里就简单的说一下~~话说做爬虫我也不是专业的~~业余的~~有什么问题帮我指正就好~~

4b6083a6bbfa9618bf240b964426afcf.png

为什么是伪代码呢?就是给大家把原理讲讲~~真实代码我就不在这里写了~~大家自己琢磨去吧~~

需要如下几个工具1、缓存:我采用的是redis~~经常做后台习惯用了~3、网络链接工具

话说后面两个我直接就用jsoup了

我个人的话是先做了一个缓存url方法类的样子大概是这样的

//这也可以作为一个入口save (url){ if(redis.get(url) 存在){ return }else{ redis.put(url); savedate(url); }}

又做了一个下载数据的

savedate(url){ dom = 读取(url); dom.存储你想存的数据(); List = dom.读取(); for(String url:list){ //递归调用 save(url); }}

这是个最简单的小栗子但是呢~~你如果真用这个去写个爬虫的话~~额~~为什么呢~~如果这么递归下去~~肯定栈溢出了~~所以还有好多工作要做~返回搜狐,查看更多

责任编辑:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值