html 读取文件一部分,如何解析HTML文件的一部分并忽略其余部分?

在每个5,000个HTML文件中,我只能得到一行文本,即999行。如何告诉HTML :: Parser我只需要获取999行?如何解析HTML文件的一部分并忽略其余部分?

dataset 1:

name:  myname one
type:  type_one (04313488)
aresss: Friedrichstr. 70, 73430 Madrid
adresse_two:  no_value
telefone:  0000736111/680040
Fax:  0000736111/680040
E-Mail:  Keine Angabe
Internet: www.mysite.es
the office: mysite_two
:  no_value
officer:  no_value
employees:  259
offices:  8
worker:  no_value
country:  contryname
the_council: 

那么,问题是,是否有可能使用此属性在5000个文件中执行搜索:999行是感兴趣的。换句话说,我能告诉HTML解析器它必须精确地查看(并提取)999行吗?

你好,亲爱的RedGritty砖 - 我有HTML经验很少:: TokeParser

use HTML::TreeBuilder::XPath;

my $tree = HTML::TreeBuilder::XPath->new;

#use real file name here

open(my $fh, "

$tree->parse_file($fh);

my ($name) = $tree->findnodes(qq{/html/body/table/tr[1]/td[2]});

print $name->as_text;

这意味着我会很高兴有一个可以用HTML :: TokeParser :: Simple和DBI运行的模板。

爱得到提示

2010-10-15

zero

+0

可能重复[xpather针对HTML文件运行:定义准备解析器的路径 - 作业运行Perl的HTML :: TokePaser](http://stackoverflow.com/questions/3949091/xpather-running-against-html -files-definitions-the-paths-to-prepare-a-parser-job-ru) –

2010-10-16 14:10:07

+0

该HTML的哪一行是你想要提取的那一行,或者是全部在一行上? –

2010-10-16 19:20:31

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值