爬虫技术
文章平均质量分 87
RYP_S
这个作者很懒,什么都没留下…
展开
-
SGMLParser
http://www.open-open.com/lib/view/1329700631343 SGMLParser 将 HTML 分解成有用的片段, 比如开始标记和结束标记。一旦它成功地分解出某个数据为一个有用的片段,它会根据 所发现的数据,调用一个自身内部的方法。为了使用这个分析器,您需要子类化 SGML- Parser类,并且覆盖这些方法。 SGMLParser类里面包含转载 2015-07-14 19:34:11 · 588 阅读 · 0 评论 -
scrapy安装(Linux RedHat)
Scrapy是一款非常成熟的爬虫框架,可以抓取网页数据并抽取结构化数据。(官方网站:www.scrapy.org)。 Requirements Python 2.5, 2.6, 2.7 (3.x is not yet supported) Twisted 2.5.0, 8.0 or above w3lib lxml or libxml2 (if using libxml2, v原创 2015-07-16 18:56:04 · 2158 阅读 · 1 评论