Chapter 6. Simple HTML Processing with Regular Expressions

最新推荐文章于 2021-12-16 22:15:00 发布

scan724

最新推荐文章于 2021-12-16 22:15:00 发布

阅读量449

点赞数

分类专栏： perl LWP

本文链接：https://blog.csdn.net/zhaoyangjian724/article/details/46892983

版权

perl LWP 专栏收录该内容

111 篇文章 33 订阅 ¥39.90 ¥99.00

订阅专栏

本章聚焦于通过Perl的正则表达式处理HTML，介绍如何从网站如亚马逊提取数据。示例展示了如何获取特定书籍的网页并解析HTML，以获取如出版商、ISBN和销售排名等信息。

摘要由CSDN通过智能技术生成

Chapter 6. Simple HTML Processing with Regular Expressions


前几章都是从Web上得到东西,但是 一旦你要得到一个文件,你必须处理它,如果你得到一个GIF,


你会使用一些模块或挖补程序来读取GIFS ,同样的 如果你得到一个PNG,RSS文件或者MP3，或者其他的。

然而，在网上最重要的有趣的加工信息是HTML，那么这本书的其余部分将专注于将信息从HTML特别。



在这一章中,我们将使用一个基本的方法来处理HTML 资源: Perl的正则表达式,这种技术是强大的,

大多数网站可以用这种方式开采。我们提出了使用正则表达式来提取数据的技术，并向你展示如何调试那些正则表达式。从亚马

逊的例子，O'Reilly Network，Netscape书签文件，与地下气象网站显示技术。


6.1. Automating Data Extraction 数据自动提取

假设我们呀从Amazon 图书页面中提取数据,第一个问题是得到HTML。浏览亚马逊表明一本书的页面的URL是

http://www.amazon.com/exec/obidos/asin/isbn ISBN，哪里是本书独特的国际标准图书编号。所以拿Perl食谱的网页，例如

#!/usr/bin/perl -w
use strict;
use LWP::Simple;

my $html = get("http://www.amazon.com/exec/obidos/ASIN/1565922433")
  or die "

了解本专栏