html 读取文件一部分,如何解析HTML文件的一部分并忽略其余部分？

最新推荐文章于 2021-09-07 16:05:37 发布

weixin_39874809

最新推荐文章于 2021-09-07 16:05:37 发布

阅读量162

点赞数

文章标签： html 读取文件一部分

在每个5,000个HTML文件中，我只能得到一行文本，即999行。如何告诉HTML :: Parser我只需要获取999行？如何解析HTML文件的一部分并忽略其余部分？

dataset 1:

name:	myname one
type:	type_one (04313488)
aresss:	Friedrichstr. 70, 73430 Madrid
adresse_two:	no_value
telefone:	0000736111/680040
Fax:	0000736111/680040
E-Mail:	Keine Angabe
Internet:	www.mysite.es
the office:	mysite_two
:	no_value
officer:	no_value
employees:	259
offices:	8
worker:	no_value
country:	contryname
the_council:	那么，问题是，是否有可能使用此属性在5000个文件中执行搜索：999行是感兴趣的。换句话说，我能告诉HTML解析器它必须精确地查看(并提取)999行吗？你好，亲爱的RedGritty砖 - 我有HTML经验很少:: TokeParser use HTML::TreeBuilder::XPath; my $tree = HTML::TreeBuilder::XPath->new; #use real file name here open(my $fh, " $tree->parse_file($fh); my ($name) = $tree->findnodes(qq{/html/body/table/tr[1]/td[2]}); print $name->as_text; 这意味着我会很高兴有一个可以用HTML :: TokeParser :: Simple和DBI运行的模板。爱得到提示 2010-10-15 zero +0 可能重复[xpather针对HTML文件运行：定义准备解析器的路径 - 作业运行Perl的HTML :: TokePaser](http://stackoverflow.com/questions/3949091/xpather-running-against-html -files-definitions-the-paths-to-prepare-a-parser-job-ru) – 2010-10-16 14:10:07 +0 该HTML的哪一行是你想要提取的那一行，或者是全部在一行上？ – 2010-10-16 19:20:31

weixin_39874809

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。