[爬虫] 爬虫的实现

最新推荐文章于 2023-03-22 14:56:25 发布

ihavenoidea

最新推荐文章于 2023-03-22 14:56:25 发布

阅读量1.4k

点赞数

文章标签： url build byte 测试网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ihavenoidea/article/details/371779

版权

作为一个爬虫，最基本的便是能够从各个页面中提取URL，给整个爬虫系统模型提供一个URL抽取器模块。在文章〈 [ 爬虫 ] URL的提取〉中介绍我的URL提取器的实现。

接着是下载模块，当然我还没学网络呢，对这些不是怎么清楚，大概的看了下帮助，简单的封装了一个用于下载的类。提供接口有：

open_section(...) // [打开绘画]

build_connection(...) // [建立连接：说明，在爬虫中针对同一个HOST我采取的是维持一定的连接，然后多次使用该连接请求不同的页面，提高了爬虫速度

get_page(...) // [请求页面,在此实现中我使用的是字符串流，开始只是因为习惯，加上一点的方便，没考虑想对于直接用byte数组的速度差距……，没测试]

close(); // [用于关闭会话以及连接]

……

待写...

---------------------

回下面的兄弟，因为现在不知道为啥看不到验证码图片...

（啊，不好意思，不好意思，要是以前我还可以和你聊，现在忘记完了，代码嘛，我没完成，其实完成了基本，不过，恩太垃圾的代码我是不想拿出来的抱歉

并且好像还有好几个关键地方想法错误，忘了~~，哎反正现在想起来（虽然大学而后好像没写代码了）大学写的都好乱，有好多华而不实的东西）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。