近期有个项目是要实现一个简单的垂直搜索引擎,在做爬虫这一块时,要分析页面上所有的URL。但有些URL采用的是相对链接地址形式。
如:http://blog.csdn.net/lizhihaoweiwei/article/details/17839481这个页面上有个链接叫做 34342,则这个链接的真实地址为:
http://blog.csdn.net/lizhihaoweiwei/article/details/34342。所以我要写一个函数来完成转换。考虑到如下情况:
同一层 ./
根目录层 /
可能是当前层也可能是独立的URL abc
上一层(上一层的上一层..)等
写出了苦干函数用来处理这些情况,要考虑处理的容错性,写的有点复杂。实现之后有点沾沾自喜的情绪。
最后不小心发现 URL类有几个构造方法,其中一个是 URL(URL,String),初看这个构造方法觉得有些奇怪,第一个参数URL是何意思?再猛的想到,这个可能是参考的URL,后一个可能是相对的链接地址。最终验证果然如此。浪费了几个小时在这个地方,真不划算。
总结:写代码要有跳出来的思想,一览众山小的感觉。有问题不要着急去解决,而是要想清楚怎样去解决。比如,这个是处理与URL相关的,应该先看URL有没有提供这个功能。