C#第五次作业 提取网页正文

原创 2015年07月07日 19:24:45

利用网上下载的程序提取指定网址的正文

网址1:

http://blog.csdn.net/quailquailquail/article/details/45821703





网址2:

 http://user.qzone.qq.com/303727350/blog/1430870007

该程序对QQ空间无法提取正文文本和带标签文本,如下所示:



原始网页:



网址3:

http://www.cnblogs.com/jasondan/p/4145305.html




心得体会:

        要想提高编程水平,要做到多看,多写,还有一点就是多改。改包含两个方面的意思:一是多改自己的代码,不断改正自己所写程序中的漏洞,完善已有功能并增加新的功能;二是要改别人的程序,把别人的程序拿过来,从用户的角度发现程序的不足并对其进行修改和完善,完全理解、吃透别人的代码,学习别人的逻辑方式和编程技巧。当然在使用别人代码的同时,还要注意版权的保护,避免侵犯他人的版权。

      学习就是一个不断实践、不断思考的过程,在实践中思考、思考实践所得,这二者缺一不可,正所谓学而不思则罔,思而不学则殆。通过解决在学习实践过程中遇到的一个又一个问题的方式,使自己一点一点地进步。

C#第五次作业——正文提取

正文提取软件-Html2Artical 下载了提取正文软件Html2Artical后,运行VS里面的例程,打开软件界面: 输入老师要求的第一个网址:http://blog.csdn.n...
  • salvatore14
  • salvatore14
  • 2015年06月19日 16:05
  • 303

c#第五次作业---正文提取

一:要求如下:     (1)能够在自己电脑运行此程序。     (2)测试如下三个不同的网页的提取效果,并把结果截图发布到作业博文中:               http:/...
  • guojingmei
  • guojingmei
  • 2015年07月04日 19:25
  • 436

C#第五次作业:开源项目“网页正文提取”的理解

目标1:下载测试Html2Article软件(80分)           要求:       (1)能够在自己电脑运行此程序。       (2)测试如下三个不同的网页的提取效果,并把结果截图发布到...
  • u010580422
  • u010580422
  • 2015年05月24日 23:14
  • 290

《C#程序设计》 第五次作业:开源项目“网页正文提取”的理解

一、打开运行(ctrl+r)->输入cmd->确定->输入netstat -ano 结果检测到 :80端口被system 占用,如图所示 打开进程发现确实被 PID为 4 的引用程序占用了(sys...
  • Ajixk
  • Ajixk
  • 2015年06月03日 14:08
  • 682

《C#程序设计》第五次作业:开源项目“网页正文提取”的理解

作业链接:http://user.qzone.qq.com/303727350/blog/1432180216 信管1123 林少鑫 201211671312 完成目标:目标一+目标二 ...
  • u011524722
  • u011524722
  • 2015年05月26日 10:55
  • 359

网页正文及内容提取算法

基于行块分布函数的通用网页正文抽取 http://wenku.baidu.com/link?url=TOBoIHWT_k68h5z8k_Pmqr-wJMPfCy2q64yzS8hxsgTg4lMNH8...
  • levy_cui
  • levy_cui
  • 2016年05月23日 14:18
  • 3119

php实现的网页正文提取算法

Html2Article-php实现的提取网页正文部分,最近研究百度结果页的资讯采集,其中关键环节就是从采集回的页面中提取出文章。 因为难点在于如何去识别并保留网页中的文章部分,而且删除其它无用的信息...
  • qikexun
  • qikexun
  • 2016年10月11日 20:05
  • 1564

WebCollector 网页正文提取算法(ContentExtractor)

WebCollector 网页正文提取算法(ContentExtractor)WebCollector自2.10版起加入新闻网页正文自动提取功能(合并了hfut-dmic的ContentExtract...
  • AJAXHu
  • AJAXHu
  • 2015年09月16日 13:58
  • 6570

【Python】提取网页正文内容的相关模块与技术

【Python】提取网页正文内容的相关模块与技术   1、正文抽取地址   https://github.com/buriy/python-readability   【安装】 ...
  • a906423355
  • a906423355
  • 2017年09月27日 17:05
  • 527

网页正文提取算法介绍

查找发现了两个比较好的网页正文提取算法: 国内:哈工大的《基于行块分布函数的通用网页正文抽取》该算法开源网址为http://code.google.com/p/cx-extractor/,效果为...
  • www19940501a
  • www19940501a
  • 2014年04月11日 18:39
  • 4848
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:C#第五次作业 提取网页正文
举报原因:
原因补充:

(最多只允许输入30个字)