html网页在线提取,对HTML网页正文进行提取

最新推荐文章于 2024-06-03 17:49:45 发布

智芯融

最新推荐文章于 2024-06-03 17:49:45 发布

阅读量1.6k

点赞数

文章标签： html网页在线提取

写这么一个算法，能够从过滤html标签后的文本中找到正文文本的起止行号，行号之间的文本就是网页正文部分。

有一个规律：正文部分的文本密度要高出非正文部分很多。我们按照这个特性就可以很容易将算法实现，那就是基于阈(读音：yu)值去分析正文所在的位置。

那么接下来就需要解决一些问题：

如何确定阈值？

如何分析，一行行的分析？还是？

阈值的确定可以通过统计分析得出一个比较好的值，我在实际处理过程中，发现这个值取180是比较合适的，也就是分析文本的时候，如果所分析的文本超过了180，那么就可以认为到达了正文部分。

再有就是如何分析的问题，这个其实比较容易确定，一行行的分析效果肯定不好，如果在按行分析的过程中往下在分析几行作为一次分析效果比较好。也就是一次性分析上5行左右，将字符累加起来，看看有没有达到设定的阈值，如果达到了，那么认为已经进入正文部分了。

嗯，主要的处理逻辑就是这样。

原作者的代码：

int preTextLen = 0; // 记录上一次统计的字符数量(lines就是去除html标签后的文本，_limitCount是阈值，_depth是我们要分析的深度，sb用于记录正文)

int startPos = -1; // 记录文章正文的起始位置

for (int i = 0; i < lines.Length - _depth; i++)

{

int len = 0;

for (int j = 0;

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
html网页在线提取,对HTML网页正文进行提取

写这么一个算法，能够从过滤html标签后的文本中找到正文文本的起止行号，行号之间的文本就是网页正文部分。有一个规律：正文部分的文本密度要高出非正文部分很多。我们按照这个特性就可以很容易将算法实现，那就是基于阈(读音：yu)值去分析正文所在的位置。那么接下来就需要解决一些问题：如何确定阈值？如何分析，一行行的分析？还是？阈值的确定可以通过统计分析得出一个比较好的值，我在实际处理过程中，发现这个值取1...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。