2月18号给dr. wang 的回信

最新推荐文章于 2023-10-04 18:39:07 发布

Leonkaka

最新推荐文章于 2023-10-04 18:39:07 发布

阅读量943

点赞数

分类专栏：毕业设计面面观文章标签：正则表达式存储语言工作

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Leonkaka/article/details/2104327

版权

毕业设计面面观专栏收录该内容

11 篇文章 0 订阅

订阅专栏

王老师您好，

附件中的程序实现了下载大多数链接的功能，采用了目录层次存储下载的页面。

此番对程序的修改，摒弃了FindLink函数，因为这个函数要想实现对各种链接（包括相对链接地址）的解析，需要考虑到各种超文本标记语言的表达形式和各种不同页面所采取的不同策略，复杂度相当高。我认识这种方式可以辅助完备正则表达式解析的遗漏部分。正则表达式是我在网上找到的一串用于爬虫程序的字符串。该字符串现在还不能实现一个较为完备的地址解析。（正则表达式的实现来源于 Hatem Mostafa的NetCrawler程序以及 http://blog.joycode.com/mvm/archive/2004/04/27/20352.aspx的方法B）

存储层次解析是将各个链接转化为绝对地址，并判断存储位置，通过哈希码标识来形成本地文件。（这一部分的实现来源于 Hatem Mostafa的NetCrawler程序）

虽然实现了基本的功能，但是程序的健壮性和通用性还是收到很大的限制。由于只设置了一个扫描队列，对于遇到不能解析的地址、链接失败的地址、重复地址等还没有合理地进行处理。

另外，由于程序全程是单线程工作，解析和下载串行进行，速度较慢。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2月18号给dr. wang 的回信

王老师您好，附件中的程序实现了下载大多数链接的功能，采用了目录层次存储下载的页面。此番对程序的修改，摒弃了FindLink函数，因为这个函数要想实现对各种链接（包括相对链接地址）的解析，需要考虑到各种超文本标记语言的表达形式和各种不同页面所采取的不同策略，复杂度相当高。我认识这种方式可以辅助完备正则表达式解析的遗漏部分。正则表达式是我在网上找到的一串用于爬虫程序的字符串。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。