关闭

C#第五次作业:开源项目“网页正文提取”的理解

248人阅读 评论(0) 收藏 举报

运行结果截图:

提取http://blog.csdn.net/quailquailquail/article/details/45821703结果截图: 

提取http://user.qzone.qq.com/303727350/blog/1430870007结果截图: 

提取http://www.cnblogs.com/jasondan/p/4145305.html结果截图: 

理解:正文提取的一种方法是利用HTML的DOM树来完成对网页的正文信息的分析和提取。DOM(Document Object Model)是由W3C组织发布的一种访问和操作HTML文档的规范。DOM将HTML文档表示为树形对象集合的形式,一个DOM树包含有元素、树形、文本等,每一个HTML的元素被表示为树的一个节点,其中HTML中的嵌套结构被用DOM树中节点的父子关系表示,并列结构被表示为节点的兄弟关系。 
利用DOM树提取网页正文方法的思路是利用网页的源文件建立一个DOM树结构,遍历DOM树,从网页中删除掉所有不是正文的信息,包括广告信息、图片、链接群等,这样剩下的就是正文信息。


0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:1248次
    • 积分:61
    • 等级:
    • 排名:千里之外
    • 原创:6篇
    • 转载:0篇
    • 译文:0篇
    • 评论:0条
    文章存档