作业五:开源项目“网页正文提取”的理解——Winform程序

原创 2015年07月06日 23:14:13

1.需求
提取网页正文,即提取每位同学的C#课程博客/空间日志内容,自动分析内容。
2.目标
目标1:下载测试Html2Article软件(80分)。
要求如下:
(1)能够在自己电脑运行此程序。
(2)测试如下三个不同的网页的提取效果,并把结果截图发布到作业博文中:
【1】http://blog.csdn.net/quailquailquail/article/details/45821703
【2】http://user.qzone.qq.com/303727350/blog/1430870007
【3】http://www.cnblogs.com/jasondan/p/4145305.html
(3)自己在完成作业过程中的感受、体会、克服困难的过程。
附:
一篇很不错的分享文章《我为开源做贡献,网页正文提取——Html2Article”》(链接:https://github.com/stanzhai/Html2Article),用C#语言实现了 网页正文提取 的功能。
3.实现
http://blog.csdn.net/quailquailquail/article/details/45821703
提取链接一效果图
http://user.qzone.qq.com/303727350/blog/1430870007
提取链接二效果图
http://www.cnblogs.com/jasondan/p/4145305.html
提取链接三效果图
4.总结
在本次的作业中,最大的作业莫过于“为什么我下载的软件包是和别人不一样的?”
下载页面:
下载页面
解压效果:
解压效果
多次下载未果后,尝试自己建立工程,自行借助代码完成,效果如下:
自建效果
其中发现,即使是借助代码,也是件困难的事情,因为在代码规范方面,没有规范说明书的指导,很难辨识出相应的模块。即:开发应当注重规范,这也是软件危机着重强调的一大内容。

《C#程序设计》 第五次作业:开源项目“网页正文提取”的理解

一、打开运行(ctrl+r)->输入cmd->确定->输入netstat -ano 结果检测到 :80端口被system 占用,如图所示 打开进程发现确实被 PID为 4 的引用程序占用了(sys...
  • Ajixk
  • Ajixk
  • 2015年06月03日 14:08
  • 648

《C#程序设计》第五次作业:开源项目“网页正文提取”的案例分析

这周内容,是为了回应我们第五次作业(《C#程序设计》第五次作业:开源项目“网页正文提取”的理解 )。     大家可以直接从网盘下载讲义全文(word版本下载链接)。 【目的】 1. 掌握较...
  • xydy_
  • xydy_
  • 2015年06月12日 14:29
  • 363

C#第五次作业:开源项目“网页正文提取”的理解

信管1121,201211671117,聂双燕 第一部分:作业要求(完整要求见作业要求) 目标2:在目标1的基础上,增加保存正文文本到文本文件的功能(90分)。 第二部分:程序说明及代码 1...

C#第五次作业:开源项目“网页正文提取”的理解

运行结果截图: 提取http://blog.csdn.net/quailquailquail/article/details/45821703结果截图:  提取http:/...
  • WMCTG
  • WMCTG
  • 2015年07月08日 08:08
  • 298

C#第五次作业——正文提取

正文提取软件-Html2Artical 下载了提取正文软件Html2Artical后,运行VS里面的例程,打开软件界面: 输入老师要求的第一个网址:http://blog.csdn.n...

网页正文提取——Html2Article

摘要: 为什么要做正文提取一般做舆情分析,都会涉及到网页正文内容提取。对于分析而言,有价值的信息是正文部分,大多数情况下,为了便于分析,需要将网页中和正文不相干的部分给剔除。可以说正文提取的好坏,直接...

网页去噪,获取网页正文相关开源项目

(1)网页去噪          网页去噪需要去掉与网页内表达内容不相关的文字,如广告,评论等等。现在对于博客、新闻类的网页去噪已经有很多的应用,比如常用的印象笔记、有道笔记就用到了相关的技术。 ...
  • cscmaker
  • cscmaker
  • 2013年04月23日 19:22
  • 11011

网页去噪,获取网页正文相关开源项目

转载自:http://blog.csdn.net/cscmaker/article/details/8841198 (1)网页去噪          网页去噪需要去掉与网页内表达内容不相关...

作业二:简易记事本程序——Winform程序

简易记事本程序MyNotePad 1.功能: ① 打开功能: 初始界面打开文件;已修改文件时打开文件(改进点); ② 保存功能: 初始界面键入保存;已修改文件时保存; ③ 关闭检查: 界...

c#第五次作业---正文提取

一:要求如下:     (1)能够在自己电脑运行此程序。     (2)测试如下三个不同的网页的提取效果,并把结果截图发布到作业博文中:               http:/...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:作业五:开源项目“网页正文提取”的理解——Winform程序
举报原因:
原因补充:

(最多只允许输入30个字)