C#第五次作业:开源项目“网页正文提取”的理解

运行结果截图:

提取http://blog.csdn.net/quailquailquail/article/details/45821703结果截图: 

提取http://user.qzone.qq.com/303727350/blog/1430870007结果截图: 

提取http://www.cnblogs.com/jasondan/p/4145305.html结果截图: 

理解:正文提取的一种方法是利用HTML的DOM树来完成对网页的正文信息的分析和提取。DOM(Document Object Model)是由W3C组织发布的一种访问和操作HTML文档的规范。DOM将HTML文档表示为树形对象集合的形式,一个DOM树包含有元素、树形、文本等,每一个HTML的元素被表示为树的一个节点,其中HTML中的嵌套结构被用DOM树中节点的父子关系表示,并列结构被表示为节点的兄弟关系。 
利用DOM树提取网页正文方法的思路是利用网页的源文件建立一个DOM树结构,遍历DOM树,从网页中删除掉所有不是正文的信息,包括广告信息、图片、链接群等,这样剩下的就是正文信息。


阅读更多
上一篇C#第四次作业:MYSQL数据库及C#操作MYSQL数据库——Winform程序
下一篇C#第二次作业:WinForm可视化设计:记事本开发和顺序图片阅读器
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

关闭
关闭