作业五:开源项目“网页正文提取”的理解——Winform程序

原创 2015年07月06日 23:14:13

1.需求
提取网页正文,即提取每位同学的C#课程博客/空间日志内容,自动分析内容。
2.目标
目标1:下载测试Html2Article软件(80分)。
要求如下:
(1)能够在自己电脑运行此程序。
(2)测试如下三个不同的网页的提取效果,并把结果截图发布到作业博文中:
【1】http://blog.csdn.net/quailquailquail/article/details/45821703
【2】http://user.qzone.qq.com/303727350/blog/1430870007
【3】http://www.cnblogs.com/jasondan/p/4145305.html
(3)自己在完成作业过程中的感受、体会、克服困难的过程。
附:
一篇很不错的分享文章《我为开源做贡献,网页正文提取——Html2Article”》(链接:https://github.com/stanzhai/Html2Article),用C#语言实现了 网页正文提取 的功能。
3.实现
http://blog.csdn.net/quailquailquail/article/details/45821703
提取链接一效果图
http://user.qzone.qq.com/303727350/blog/1430870007
提取链接二效果图
http://www.cnblogs.com/jasondan/p/4145305.html
提取链接三效果图
4.总结
在本次的作业中,最大的作业莫过于“为什么我下载的软件包是和别人不一样的?”
下载页面:
下载页面
解压效果:
解压效果
多次下载未果后,尝试自己建立工程,自行借助代码完成,效果如下:
自建效果
其中发现,即使是借助代码,也是件困难的事情,因为在代码规范方面,没有规范说明书的指导,很难辨识出相应的模块。即:开发应当注重规范,这也是软件危机着重强调的一大内容。

版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

C#第五次作业:开源项目“网页正文提取”的理解

信管1121,201211671117,聂双燕 第一部分:作业要求(完整要求见作业要求) 目标2:在目标1的基础上,增加保存正文文本到文本文件的功能(90分)。 第二部分:程序说明及代码 1...

网页去噪,获取网页正文相关开源项目

转载自:http://blog.csdn.net/cscmaker/article/details/8841198 (1)网页去噪          网页去噪需要去掉与网页内表达内容不相关...

作业二:简易记事本程序——Winform程序

简易记事本程序MyNotePad 1.功能: ① 打开功能: 初始界面打开文件;已修改文件时打开文件(改进点); ② 保存功能: 初始界面键入保存;已修改文件时保存; ③ 关闭检查: 界...

WebCollector 网页正文提取算法(ContentExtractor)

WebCollector 网页正文提取算法(ContentExtractor)WebCollector自2.10版起加入新闻网页正文自动提取功能(合并了hfut-dmic的ContentExtract...
  • AJAXHu
  • AJAXHu
  • 2015-09-16 13:58
  • 5317

网页正文提取方案

网页正文提取方案闲暇时间无聊,研究了下如何获取网页正文的方案。这里说的网页正文主要是针对博客、新闻等文章类的网页进行获取,筛选出正文主题的内容。关于方案网上常用的方案有如下几种: 1. 根据解析d...

网页正文提取

目前互联网上公布出来的正文提取算法,大家可以综合比较下,一起来测试下哪个更好用。 词网--北京词网科技有限公司http://demo.cikuu.com/cgi-bin/cgi-contex 猎兔网页...

网页正文提取

页正文提取的思路 在不断追踪网页文本提取的技术,这篇文章中提到的做法很有实用价值!       网页由于格式千变万化,要找到一种能提取任意网页正文的算法,并能达到应用需要的准确度,...

一种提取HTML网页正文的方法

这里所说的正文提取主要是针对新闻页面等网页的主体是文字的HTML页面。在做一些与文本处理相关的实验时往往需要大量的文本,虽然网络上已经存在了一些开放数据集如搜狗语料库,但是有的时候也需要根据具体的需求...

金油条网页正文提取器

  • 2008-08-03 14:09
  • 20KB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)