perl提取表格数据

最新推荐文章于 2022-06-23 16:39:42 发布

lubingxue7048

最新推荐文章于 2022-06-23 16:39:42 发布

阅读量1.3k

点赞数

分类专栏： perl

本文链接：https://blog.csdn.net/yinghuitong/article/details/40077653

版权

perl 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

#!/usr/bin/perl -w
# author by luyi
use strict;

my $src_data="/export/remotedata/wget_html_data.txt"; #获取的html数据存入此文件中
my $result="/export/remotedata/get_data_173.txt"; #抽取的最终结果数据存入此文件中
my $info="/tmp/wget_data_173.info"; #日志文件
my $address="http://api.173.com:8080/public/agentList";
my $cmd=qx(which wget);
chomp($cmd);

unlink $src_data if (-f $src_data);
unlink $result if (-f $result);

qx($cmd $address -a $info -O $src_data);
##print "$cmd $address -a $info -O $src_data";
##/usr/bin/wget http://api.173.com:8080/public/agentList -a a.txt -O b.txt

if(! -s $src_data){
print "Get html file : $src_data error!\n";
print INFO "Get html file : $src_data error!\n";
exit;
}

open(INFO,">>$info") or die "can't open $info $!";
open(SD,"$src_data") or die "can't open $src_data $!";
open(RTF,">>$result") or die "can't open $result $!";

my $flag=0;
my $line_count=0; #html的<table></table>中包含的<tr>数
my $td_count=0; #html的<table></table>中包含的<td>数
my @tds; #保存<td></td>之间的内容

while(my $line=<SD>){
chomp($line);

if ($line =~ /\<table[^>]*\>/){
$flag=1;
}elsif($line =~ /\<\/table\>/){
# $flag = 0;
last;
}

if ($flag == 0){
next;
}else{
if($line =~ /\<tr[^>]*\>/){
$line_count += 1;
next;
}elsif($line =~ /\<td\>(.+)\<\/td\>/){
$td_count += 1;
push @tds,$1;
next;
}
}

}

#print "@tds\n";
#print "$line_count\t$td_count\n";

my $cols = $td_count / $line_count; #计算每个<tr>中包含的<td>数，即每行有多少列
my $cnt = 1; #划分行数的标记符号

foreach(@tds){
my $d = $cnt % $cols;

if($d == 0){ #读到一行的结尾列，换行
# print "$_\n";
print RTF "$_\n";
}else{ #否则，列与列之间用\t分割
# print "$_\t";
print RTF "$_\t";
}
$cnt += 1;
}

close(SD);
close(RTF);
close(INFO);

lubingxue7048

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
perl提取表格数据

#!/usr/bin/perl -w# author by luyiuse strict;my $src_data="/export/remotedata/wget_html_data.txt"; #获取的html数据存入此文件中my $result="/export/remotedata/get_data_173.txt"; #抽取的最终结果数据存入此文件中
复制链接

扫一扫