Red Hat Linux下python lxml的配置安装
手头要做的事情是:从某个资讯网站抓取大量的分类资讯,用于训练一个文本分类器。需要的步骤是:1、下载索引页;2、从索引页中抽取出新闻url;3、下载新闻网页;4、对新闻网页做正文抽取。最后一步我不用担心,手头有现成的正文抽取程序。那么对前三步而言,一种最简单有效的实现方法是用Python:(1)下载可以直接用Python标准组件urllib(http://www.tsnc.edu.cn/default/tsnc_wgrj/doc/pythonhtml/html/html_processing/extrac
原创
2010-07-30 23:22:00 ·
3791 阅读 ·
0 评论