C#第五次作业 提取网页正文

原创 2015年07月07日 19:24:45

利用网上下载的程序提取指定网址的正文

网址1:

http://blog.csdn.net/quailquailquail/article/details/45821703





网址2:

 http://user.qzone.qq.com/303727350/blog/1430870007

该程序对QQ空间无法提取正文文本和带标签文本,如下所示:



原始网页:



网址3:

http://www.cnblogs.com/jasondan/p/4145305.html




心得体会:

        要想提高编程水平,要做到多看,多写,还有一点就是多改。改包含两个方面的意思:一是多改自己的代码,不断改正自己所写程序中的漏洞,完善已有功能并增加新的功能;二是要改别人的程序,把别人的程序拿过来,从用户的角度发现程序的不足并对其进行修改和完善,完全理解、吃透别人的代码,学习别人的逻辑方式和编程技巧。当然在使用别人代码的同时,还要注意版权的保护,避免侵犯他人的版权。

      学习就是一个不断实践、不断思考的过程,在实践中思考、思考实践所得,这二者缺一不可,正所谓学而不思则罔,思而不学则殆。通过解决在学习实践过程中遇到的一个又一个问题的方式,使自己一点一点地进步。

版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

C#第五次作业:开源项目“网页正文提取”的理解

信管1121,201211671117,聂双燕 第一部分:作业要求(完整要求见作业要求) 目标2:在目标1的基础上,增加保存正文文本到文本文件的功能(90分)。 第二部分:程序说明及代码 1...

作业五:开源项目“网页正文提取”的理解——Winform程序

1.需求 提取网页正文,即提取每位同学的C#课程博客/空间日志内容,自动分析内容。 2.目标 目标1:下载测试Html2Article软件(80分)。 要求如下: (1)能够在自己电脑运行...

【c#第五次作业】测试 Html2Article 并添加保存功能

这是源码下载地址: http://www.51aspx.com/code/Html2Article 用vs打开后需要  右击Demo →设为启动项目 添加了 一个按钮和s...

C#实现网页内容正文抓取

C#实现网页内容正文抓取.net

C#实现网页内容正文抓取

思路: 1、抓取远程网页源码,这里要实现自动判断网页编码,否则有可能抓到乱码。我是先看应答的 http头的chareset,一般这个很准,但像csdn的新闻比较变态http应答的头里的charese...

WebCollector 网页正文提取算法(ContentExtractor)

WebCollector 网页正文提取算法(ContentExtractor)WebCollector自2.10版起加入新闻网页正文自动提取功能(合并了hfut-dmic的ContentExtract...
  • AJAXHu
  • AJAXHu
  • 2015-09-16 13:58
  • 5304

网页正文提取方案

网页正文提取方案闲暇时间无聊,研究了下如何获取网页正文的方案。这里说的网页正文主要是针对博客、新闻等文章类的网页进行获取,筛选出正文主题的内容。关于方案网上常用的方案有如下几种: 1. 根据解析d...

网页正文提取

目前互联网上公布出来的正文提取算法,大家可以综合比较下,一起来测试下哪个更好用。 词网--北京词网科技有限公司http://demo.cikuu.com/cgi-bin/cgi-contex 猎兔网页...

网页正文提取

页正文提取的思路 在不断追踪网页文本提取的技术,这篇文章中提到的做法很有实用价值!       网页由于格式千变万化,要找到一种能提取任意网页正文的算法,并能达到应用需要的准确度,...

一种提取HTML网页正文的方法

这里所说的正文提取主要是针对新闻页面等网页的主体是文字的HTML页面。在做一些与文本处理相关的实验时往往需要大量的文本,虽然网络上已经存在了一些开放数据集如搜狗语料库,但是有的时候也需要根据具体的需求...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)