- 博客(1)
- 资源 (1)
- 收藏
- 关注
原创 url normalization
在爬虫中需要将url变为唯一、合法的形式以避免重复爬行,因此正规化要将其中必须用urlencode的地方全部encode,不需要的即时在原始url中已经encode也要decode(保留字符和非保留字符使用原RFC规定的,参考维基百科url normalization一文,与浏览器有一定出入),且所有的url encode都要使用大写形式,域名后面的冗余点号必须去掉,域名必须全部小写,域名部分还要按照IDN的规定使用punycode进行编码(暂未实现),路径部分要消除.和..的冗余,同事对于超出范围的url
2010-11-12 03:14:00 1678
Scons User Guide 2.01
Scons号称下一代自动编译工具,相比于make,它的生成脚本使用Python而不像makefile那样新创造一种语言。我认为它是autoconfig,makefile的很好替代。
2011-05-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人