第五次作业:开源项目“网页正文提取”的理解

转载 2015年07月07日 20:53:03
物联1121    201211672132   姚硕云
一、功能简介
 目标1的要求如下:
    (1)能够在自己电脑运行此程序。
    (2)测试如下三个不同的网页的提取效果,并把结果截图发布到作业博文中: 
             
http://blog.csdn.net/quailquailquail/article/details/45821703
             
http://user.qzone.qq.com/303727350/blog/1430870007
             
http://www.cnblogs.com/jasondan/p/4145305.html
    (3)自己在完成作业过程中的感受、体会、克服困难的过程。

二、界面展示
(1)网址一




(2)网址二




(3)网址三



三、心得与体会
      这次作业的不足之处就是第二个网址的QQ空间的正文文本和带标签的正文无法提取出来,自己花了一些时间之后还是没法解决,不清楚问题出在哪里,所以有点小瑕疵。但从总体上来讲,还是满足了作业的基本要求。前面做过的几次作业加上这一次,已经算是五次练习了,可以感觉到自己完成每次作业的时间缩短了,也算是一种进步吧,当然也不排斥作业本身的难度问题。不过,想要很好地掌握C#这门语言,单单通过这么几次练习是远远不够的,希望自己以后能够抽出时间继续巩固好这门语言,理解得更透彻一些。

相关文章推荐

C#第五次作业:开源项目“网页正文提取”的理解

信管1121,201211671117,聂双燕 第一部分:作业要求(完整要求见作业要求) 目标2:在目标1的基础上,增加保存正文文本到文本文件的功能(90分)。 第二部分:程序说明及代码 1...

作业五:开源项目“网页正文提取”的理解——Winform程序

1.需求 提取网页正文,即提取每位同学的C#课程博客/空间日志内容,自动分析内容。 2.目标 目标1:下载测试Html2Article软件(80分)。 要求如下: (1)能够在自己电脑运行...

C#第五次作业 提取网页正文

利用网上下载的程序提取指定网址的正文 网址1: http://blog.csdn.net/quailquailquail/article/details/45821703 ...

网页去噪,获取网页正文相关开源项目

(1)网页去噪          网页去噪需要去掉与网页内表达内容不相关的文字,如广告,评论等等。现在对于博客、新闻类的网页去噪已经有很多的应用,比如常用的印象笔记、有道笔记就用到了相关的技术。 ...
  • cscmaker
  • cscmaker
  • 2013年04月23日 19:22
  • 10843

网页去噪,获取网页正文相关开源项目

转载自:http://blog.csdn.net/cscmaker/article/details/8841198 (1)网页去噪          网页去噪需要去掉与网页内表达内容不相关...

WebCollector 网页正文提取算法(ContentExtractor)

WebCollector 网页正文提取算法(ContentExtractor)WebCollector自2.10版起加入新闻网页正文自动提取功能(合并了hfut-dmic的ContentExtract...
  • AJAXHu
  • AJAXHu
  • 2015年09月16日 13:58
  • 5755

网页正文提取方案

网页正文提取方案闲暇时间无聊,研究了下如何获取网页正文的方案。这里说的网页正文主要是针对博客、新闻等文章类的网页进行获取,筛选出正文主题的内容。关于方案网上常用的方案有如下几种: 1. 根据解析d...

网页正文提取

页正文提取的思路 在不断追踪网页文本提取的技术,这篇文章中提到的做法很有实用价值!       网页由于格式千变万化,要找到一种能提取任意网页正文的算法,并能达到应用需要的准确度,...

一种提取HTML网页正文的方法

这里所说的正文提取主要是针对新闻页面等网页的主体是文字的HTML页面。在做一些与文本处理相关的实验时往往需要大量的文本,虽然网络上已经存在了一些开放数据集如搜狗语料库,但是有的时候也需要根据具体的需求...

php实现的网页正文提取算法

Html2Article-php实现的提取网页正文部分,最近研究百度结果页的资讯采集,其中关键环节就是从采集回的页面中提取出文章。 因为难点在于如何去识别并保留网页中的文章部分,而且删除其它无用的信息...
  • qikexun
  • qikexun
  • 2016年10月11日 20:05
  • 1277
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:第五次作业:开源项目“网页正文提取”的理解
举报原因:
原因补充:

(最多只允许输入30个字)