运行结果截图:
提取http://blog.csdn.net/quailquailquail/article/details/45821703结果截图:
提取http://user.qzone.qq.com/303727350/blog/1430870007结果截图:
提取http://www.cnblogs.com/jasondan/p/4145305.html结果截图:
理解:正文提取的一种方法是利用HTML的DOM树来完成对网页的正文信息的分析和提取。DOM(Document Object Model)是由W3C组织发布的一种访问和操作HTML文档的规范。DOM将HTML文档表示为树形对象集合的形式,一个DOM树包含有元素、树形、文本等,每一个HTML的元素被表示为树的一个节点,其中HTML中的嵌套结构被用DOM树中节点的父子关系表示,并列结构被表示为节点的兄弟关系。
利用DOM树提取网页正文方法的思路是利用网页的源文件建立一个DOM树结构,遍历DOM树,从网页中删除掉所有不是正文的信息,包括广告信息、图片、链接群等,这样剩下的就是正文信息。