在每个5,000个HTML文件中,我只能得到一行文本,即999行。如何告诉HTML :: Parser我只需要获取999行?如何解析HTML文件的一部分并忽略其余部分?
dataset 1:
name: | myname one |
type: | type_one (04313488) |
aresss: | Friedrichstr. 70, 73430 Madrid |
adresse_two: | no_value |
telefone: | 0000736111/680040 |
Fax: | 0000736111/680040 |
E-Mail: | Keine Angabe |
Internet: | www.mysite.es |
the office: | mysite_two |
: | no_value |
officer: | no_value |
employees: | 259 |
offices: | 8 |
worker: | no_value |
country: | contryname |
the_council: | 那么,问题是,是否有可能使用此属性在5000个文件中执行搜索:999行是感兴趣的。换句话说,我能告诉HTML解析器它必须精确地查看(并提取)999行吗? 你好,亲爱的RedGritty砖 - 我有HTML经验很少:: TokeParser use HTML::TreeBuilder::XPath; my $tree = HTML::TreeBuilder::XPath->new; #use real file name here open(my $fh, " $tree->parse_file($fh); my ($name) = $tree->findnodes(qq{/html/body/table/tr[1]/td[2]}); print $name->as_text; 这意味着我会很高兴有一个可以用HTML :: TokeParser :: Simple和DBI运行的模板。 爱得到提示 2010-10-15 zero +0 可能重复[xpather针对HTML文件运行:定义准备解析器的路径 - 作业运行Perl的HTML :: TokePaser](http://stackoverflow.com/questions/3949091/xpather-running-against-html -files-definitions-the-paths-to-prepare-a-parser-job-ru) – 2010-10-16 14:10:07 +0 该HTML的哪一行是你想要提取的那一行,或者是全部在一行上? – 2010-10-16 19:20:31 |