Python
千与
系统架构设计,分布式系统,海量数据处理,机器学习。
展开
-
Windows下安装libxml2并在Python中使用XPath
为了使用XPath技术,对爬虫抓取的网页数据进行抽取(如标题、正文等等),花了一天的时间熟悉了一下Python语言,今天尝试在Windows下安装libxml2模块,将自己的一点学习实践简单记录一下。Python在安装一个扩展的模块时,可以通过安装辅助工具包(Setuptools)来安装新的Python packages,并可以实现对已经安装的packages的管理。在http://pypi.原创 2011-12-01 12:25:52 · 34267 阅读 · 0 评论 -
RHEL 5下安装Scrapy-0.14.0.2841爬虫框架
Scrapy是一款非常成熟的爬虫框架,可以抓取网页数据并抽取结构化数据,目前已经有很多企业用于生产环境。对于它的更多介绍,可以查阅相关资料(官方网站:www.scrapy.org)。我们根据官网提供的安装指南,来一步步安装,主要参考了http://doc.scrapy.org/en/latest/intro/install.html页面的介绍:Requirements¶Pytho原创 2011-12-05 23:41:54 · 5161 阅读 · 0 评论