Xspider2的前期已经完成,目前的版本是0.1.1b可以实现
Single page的抓取; 页面深度的返回与存储
现在打算在X2的基础上增加一个页面深度及路径的算法,这个算法我称之为TPDA,按照GNU风格的解释
TPDA: The Page/Point Depth Algorithm.
争取实现:
- 页面深度和路径
- 无分词文本空间高频词语提取
- 路径最优算法
Xspider2的前期已经完成,目前的版本是0.1.1b可以实现
Single page的抓取; 页面深度的返回与存储
现在打算在X2的基础上增加一个页面深度及路径的算法,这个算法我称之为TPDA,按照GNU风格的解释
TPDA: The Page/Point Depth Algorithm.
争取实现: