通过分析html格式确定网页主体内容的想法

Web编程中,为后续处理需了解HTML文件信息,如抓取网页自动分类、比较网页相关性等。可通过分析HTML页面表格占位大小确定主次关系,但对新浪、搜狐主页效果不佳,可从新闻页分析入手,还给出提取页面所有iframe的小程序。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

通过分析html格式确定网页主体内容的想法

    做Web编程有时候需要了解html文件的大小,组成等信息,为以后的各种处理做准备。比如通过crawler抓取网页对网页内容自动分类的时候,最好能提取网页中的主要信息,过滤掉页头,页角的非主体信息;还有比较2个网页内容相关性的时候也需要类似的技术。最简单的还有:分析一个网页中使用IFrame的个数,内外链接个数比例等都需要对Html文件格式做分析。

    要想知道网页的那个部分是主要部分,应该有很多判断标准。我们先从最简单的表格说起。现在大部分的网页组成都是由表格做框架。那么通过分析html页面中的表格的占位(height,weight)大小就可以来确定表格的主次关系了。

    技术上问题不大,但是对于分析sina,sohu这样的主页效果可能不好,因为里面全是表格。

    所以想从分析一些新闻页开始,不知道大家有没有什么好的注意!!

    这里是一个小程序可以提取页面中所有的iframe。

<script src="http://xiaodingdong.myshow.cn/js/showfavorite.js" type=text/javascript> </script>
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

JCJC错别字检测-田春峰

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值