正文提取软件-Html2Artical
下载了提取正文软件Html2Artical后,运行VS里面的例程,打开软件界面:
输入老师要求的第一个网址:http://blog.csdn.net/quailquailquail/article/details/45821703
点击提取正文后显示如下:
正文能正确提取
下图是带标签的正文
这是原始网页:
正文文本:
第二个网址是老师的QQ空间:
http://user.qzone.qq.com/303727350/blog/1430870007
但是并不能提取到正文然而带标签正文可以提取:
原始网页也可以打开:
第三个网站也遇到类似情况:
http://www.cnblogs.com/jasondan/p/4145305.html
原始网页可以打开: