C#第五次作业:开源项目“网页正文提取”的理解

原创 2015年07月08日 08:08:16

运行结果截图:

提取http://blog.csdn.net/quailquailquail/article/details/45821703结果截图: 

提取http://user.qzone.qq.com/303727350/blog/1430870007结果截图: 

提取http://www.cnblogs.com/jasondan/p/4145305.html结果截图: 

理解:正文提取的一种方法是利用HTML的DOM树来完成对网页的正文信息的分析和提取。DOM(Document Object Model)是由W3C组织发布的一种访问和操作HTML文档的规范。DOM将HTML文档表示为树形对象集合的形式,一个DOM树包含有元素、树形、文本等,每一个HTML的元素被表示为树的一个节点,其中HTML中的嵌套结构被用DOM树中节点的父子关系表示,并列结构被表示为节点的兄弟关系。 
利用DOM树提取网页正文方法的思路是利用网页的源文件建立一个DOM树结构,遍历DOM树,从网页中删除掉所有不是正文的信息,包括广告信息、图片、链接群等,这样剩下的就是正文信息。


提取http://user.qzone.qq.com/303727350/blog/1430870007结果截图: 

网页去噪,获取网页正文相关开源项目

(1)网页去噪          网页去噪需要去掉与网页内表达内容不相关的文字,如广告,评论等等。现在对于博客、新闻类的网页去噪已经有很多的应用,比如常用的印象笔记、有道笔记就用到了相关的技术。 ...
  • cscmaker
  • cscmaker
  • 2013年04月23日 19:22
  • 11127

使用Jquery+EasyUI进行框架项目开发案例讲解之一---员工管理源码分享

在开始讲解之前,我们先来看一下什么是Jquery EasyUI?jQuery EasyUI是一组基于jQuery的UI插件集合,而jQuery EasyUI的目标就是帮助web开发者更轻松的打造出功能...
  • chinahuyong
  • chinahuyong
  • 2013年09月24日 10:48
  • 277663

c++ primer第五版(中文)习题答案 第一章-开始

本博客知识记录自己学习中的笔记或者记录,如果有错误欢迎大家纠正。 写完第十章习题,开始从头开始,把前面的习题全部完成,书也顺序看下去。习题解答 1.1 查阅你使用的编译器的文档,确定它所使用的文件命...
  • xhxwd
  • xhxwd
  • 2015年10月22日 22:12
  • 6898

C#第五次作业:开源项目“网页正文提取”的理解

信管1121,201211671117,聂双燕 第一部分:作业要求(完整要求见作业要求) 目标2:在目标1的基础上,增加保存正文文本到文本文件的功能(90分)。 第二部分:程序说明及代码 1...
  • sunshinegyan
  • sunshinegyan
  • 2015年05月31日 23:30
  • 506

《C#程序设计》 第五次作业:开源项目“网页正文提取”的理解

一、打开运行(ctrl+r)->输入cmd->确定->输入netstat -ano 结果检测到 :80端口被system 占用,如图所示 打开进程发现确实被 PID为 4 的引用程序占用了(sys...
  • Ajixk
  • Ajixk
  • 2015年06月03日 14:08
  • 674

《C#程序设计》第五次作业:开源项目“网页正文提取”的案例分析

这周内容,是为了回应我们第五次作业(《C#程序设计》第五次作业:开源项目“网页正文提取”的理解 )。     大家可以直接从网盘下载讲义全文(word版本下载链接)。 【目的】 1. 掌握较...
  • xydy_
  • xydy_
  • 2015年06月12日 14:29
  • 374

作业五:开源项目“网页正文提取”的理解——Winform程序

1.需求 提取网页正文,即提取每位同学的C#课程博客/空间日志内容,自动分析内容。 2.目标 目标1:下载测试Html2Article软件(80分)。 要求如下: (1)能够在自己电脑运行...
  • QuailQuailQuail
  • QuailQuailQuail
  • 2015年07月06日 23:14
  • 614

C#第五次作业——正文提取

正文提取软件-Html2Artical 下载了提取正文软件Html2Artical后,运行VS里面的例程,打开软件界面: 输入老师要求的第一个网址:http://blog.csdn.n...
  • salvatore14
  • salvatore14
  • 2015年06月19日 16:05
  • 292

c#第五次作业---正文提取

一:要求如下:     (1)能够在自己电脑运行此程序。     (2)测试如下三个不同的网页的提取效果,并把结果截图发布到作业博文中:               http:/...
  • guojingmei
  • guojingmei
  • 2015年07月04日 19:25
  • 429

C#第五次作业 提取网页正文

利用网上下载的程序提取指定网址的正文 网址1: http://blog.csdn.net/quailquailquail/article/details/45821703 ...
  • d0105055134
  • d0105055134
  • 2015年07月07日 19:24
  • 332
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:C#第五次作业:开源项目“网页正文提取”的理解
举报原因:
原因补充:

(最多只允许输入30个字)