C#第五次作业:开源项目“网页正文提取”的理解

原创 2015年07月08日 08:08:16

运行结果截图:

提取http://blog.csdn.net/quailquailquail/article/details/45821703结果截图: 

提取http://user.qzone.qq.com/303727350/blog/1430870007结果截图: 

提取http://www.cnblogs.com/jasondan/p/4145305.html结果截图: 

理解:正文提取的一种方法是利用HTML的DOM树来完成对网页的正文信息的分析和提取。DOM(Document Object Model)是由W3C组织发布的一种访问和操作HTML文档的规范。DOM将HTML文档表示为树形对象集合的形式,一个DOM树包含有元素、树形、文本等,每一个HTML的元素被表示为树的一个节点,其中HTML中的嵌套结构被用DOM树中节点的父子关系表示,并列结构被表示为节点的兄弟关系。 
利用DOM树提取网页正文方法的思路是利用网页的源文件建立一个DOM树结构,遍历DOM树,从网页中删除掉所有不是正文的信息,包括广告信息、图片、链接群等,这样剩下的就是正文信息。


提取http://user.qzone.qq.com/303727350/blog/1430870007结果截图: 
版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

C#第五次作业:开源项目“网页正文提取”的理解

信管1121,201211671117,聂双燕 第一部分:作业要求(完整要求见作业要求) 目标2:在目标1的基础上,增加保存正文文本到文本文件的功能(90分)。 第二部分:程序说明及代码 1...

作业五:开源项目“网页正文提取”的理解——Winform程序

1.需求 提取网页正文,即提取每位同学的C#课程博客/空间日志内容,自动分析内容。 2.目标 目标1:下载测试Html2Article软件(80分)。 要求如下: (1)能够在自己电脑运行...

C#第五次作业 提取网页正文

利用网上下载的程序提取指定网址的正文 网址1: http://blog.csdn.net/quailquailquail/article/details/45821703 ...

网页去噪,获取网页正文相关开源项目

转载自:http://blog.csdn.net/cscmaker/article/details/8841198 (1)网页去噪          网页去噪需要去掉与网页内表达内容不相关...

【c#第五次作业】测试 Html2Article 并添加保存功能

这是源码下载地址: http://www.51aspx.com/code/Html2Article 用vs打开后需要  右击Demo →设为启动项目 添加了 一个按钮和s...

C#实现网页内容正文抓取

C#实现网页内容正文抓取.net

C#实现网页内容正文抓取

思路: 1、抓取远程网页源码,这里要实现自动判断网页编码,否则有可能抓到乱码。我是先看应答的 http头的chareset,一般这个很准,但像csdn的新闻比较变态http应答的头里的charese...

WebCollector 网页正文提取算法(ContentExtractor)

WebCollector 网页正文提取算法(ContentExtractor)WebCollector自2.10版起加入新闻网页正文自动提取功能(合并了hfut-dmic的ContentExtract...
  • AJAXHu
  • AJAXHu
  • 2015-09-16 13:58
  • 5341

网页正文提取方案

网页正文提取方案闲暇时间无聊,研究了下如何获取网页正文的方案。这里说的网页正文主要是针对博客、新闻等文章类的网页进行获取,筛选出正文主题的内容。关于方案网上常用的方案有如下几种: 1. 根据解析d...

网页正文提取

目前互联网上公布出来的正文提取算法,大家可以综合比较下,一起来测试下哪个更好用。 词网--北京词网科技有限公司http://demo.cikuu.com/cgi-bin/cgi-contex 猎兔网页...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)