Chapter 6. Simple HTML Processing with Regular Expressions
前几章都是从Web上得到东西,但是 一旦你要得到一个文件,你必须处理它,如果你得到一个GIF,
你会使用一些模块或挖补程序来读取GIFS ,同样的 如果你得到一个PNG,RSS文件或者MP3,或者其他的。
然而,在网上最重要的有趣的加工信息是HTML,那么这本书的其余部分将专注于将信息从HTML特别。
在这一章中,我们将使用一个基本的方法来处理HTML 资源: Perl的正则表达式,这种技术是强大的,
大多数网站可以用这种方式开采。我们提出了使用正则表达式来提取数据的技术,并向你展示如何调试那些正则表达式。从亚马
逊的例子,O'Reilly Network,Netscape书签文件,与地下气象网站显示技术。
6.1. Automating Data Extraction 数据自动提取
假设我们呀从Amazon 图书页面中提取数据,第一个问题是得到HTML。浏览亚马逊表明一本书的页面的URL是
http://www.amazon.com/exec/obidos/asin/isbn ISBN,哪里是本书独特的国际标准图书编号。所以拿Perl食谱的网页,例如
#!/usr/bin/perl -w
use strict;
use LWP::Simple;
my $html = get("http://www.amazon.com/exec/obidos/ASIN/1565922433")
or die "
Chapter 6. Simple HTML Processing with Regular Expressions
最新推荐文章于 2021-12-16 22:15:00 发布
本章聚焦于通过Perl的正则表达式处理HTML,介绍如何从网站如亚马逊提取数据。示例展示了如何获取特定书籍的网页并解析HTML,以获取如出版商、ISBN和销售排名等信息。
摘要由CSDN通过智能技术生成