C#第五次作业：开源项目“网页正文提取”的理解

最新推荐文章于 2024-06-17 10:43:21 发布

WMCTG

最新推荐文章于 2024-06-17 10:43:21 发布

阅读量580

点赞数

本文链接：https://blog.csdn.net/WMCTG/article/details/46798645

版权

运行结果截图：

提取http://blog.csdn.net/quailquailquail/article/details/45821703结果截图:

提取http://user.qzone.qq.com/303727350/blog/1430870007结果截图:

提取http://www.cnblogs.com/jasondan/p/4145305.html结果截图:

理解：正文提取的一种方法是利用HTML的DOM树来完成对网页的正文信息的分析和提取。DOM（Document Object Model）是由W3C组织发布的一种访问和操作HTML文档的规范。DOM将HTML文档表示为树形对象集合的形式，一个DOM树包含有元素、树形、文本等，每一个HTML的元素被表示为树的一个节点，其中HTML中的嵌套结构被用DOM树中节点的父子关系表示，并列结构被表示为节点的兄弟关系。
利用DOM树提取网页正文方法的思路是利用网页的源文件建立一个DOM树结构，遍历DOM树，从网页中删除掉所有不是正文的信息，包括广告信息、图片、链接群等，这样剩下的就是正文信息。

提取 http://user.qzone.qq.com/303727350/blog/1430870007 结果截图: