船舶爬虫出现过的问题

最新推荐文章于 2024-04-03 11:24:16 发布

Yan456jie

最新推荐文章于 2024-04-03 11:24:16 发布

阅读量1.4k

点赞数

分类专栏：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Yan456jie/article/details/39577737

版权

爬虫专栏收录该内容

12 篇文章 0 订阅

订阅专栏

1、最初版本，使用多线程爬取，如果网断了就得重新爬。解决方法：另建多线程存储，并做好记录文件。
2、使用htmlparser爬取时，有的网页爬取过慢，无法设置超时连接。可使用java.net下的url，用流的方式获取网页信息，里面有设置超时的方法。可设置守护线程方式判断连接是否超时（未验证）。可使用future方式提交任务给excuteservice（未验证）
3、网页编码不同，无法爬取网页（待解决）
4、界面问题。不要把功能的实现放入界面中，在其下层可写一个控制类，专门实现和界面以及爬取的交互。
5、多线程之间的队列同步问题。可以自己写方法，在对队列进行入队和出队的时候加锁。可以用jdk提供的同步队列。
6、对入队和出队进行计数。使用jdk提供的同步队列无法实现此功能，可实现自己的同步队列，在里面设置全局变量进行计数。
7、配置文件问题。分为工程级配置文件和单个爬取网站的配置文件。可使用xml和properties两种方式。xml一般需要写一个对应的bean，也可以使用反射动态生成临时bean。使用properties可直接读取和修改配置文件的值。
8、实现最快爬取和存储至少需要多少个队列。列表队列，新闻队列，已处理列表队列，已处理新闻队列（就是已经放入线程中的）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。