自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

流动菌的专栏

羚羊挂角般的思绪,划向幽黑的天穹...

06月

原创多种基于html正文提取的思想

一、基于统计的中文网页正文抽取的研究摘要：信息抽取技术是一种广泛运用于互联网的数据挖掘技术。其目的是从互联网海量数据中抽取有意义、有价值的数据和信息，从而能更好的利用互联网资源。文中采用一种统计网页特征的方法，将中文网页中的正文部分抽取出来。该方法首先将网页表示成基于XML的DOM树形式，利用统计的节点信息从树中过滤掉噪音数据节点，最后再选取正文节点。该方法相比传统的基于包装器

2009-06-26 10:02:00 9259 3

16.5 pdflm16.dll

pdflm16.dll powerdesigner16.5 pdflm16.dll powerdesigner16.5 pdflm16.dll powerdesigner16.5

2017-12-26

eclipse 插件sysdeo

Eclipse里的tomcat插件 sysdeo

2011-05-11

ASP_NET 2_0中OWC生成的源代码

ASP_NET 2_0中OWC生成柱状图和饼状图的源代码

2008-09-27

点击滚动图片

点击滚动图片

2007-06-14

多组图片切换

多组图片切换

2007-06-14

左右滚动图片

左右滚动图片

2007-06-14

图片上下翻动

图片上下翻动

2007-06-14

图片展列

图片展列

2007-06-14

无关闭的对联

无关闭的对联

2007-06-14

翻书角落

翻书角落

2007-06-14

新闻图片组

新闻图片组

2007-06-14

移动对联

移动对联

2007-06-14

固定对联

固定对联

2007-06-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

netcpl CSDN认证博客专家 CSDN认证企业博客

码龄19年

IP 属地：江苏省

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

5: 原创

62万+: 周排名

105万+: 总排名

2万+: 访问

: 等级

387: 积分

2: 粉丝

0: 获赞

5: 评论

3: 收藏

私信

关注

热门文章

分类专栏

.NET技术 5篇
C# 2篇
大杂烩 2篇
脚本语言 5篇

最新评论

多种基于html正文提取的思想
闲散流氓: http://www.weixinxi.wang/open/extract.html 通用正文提取算法，欢迎测试
使用VSIUAL C#.NET操作Excel －把DataTable中的数据写入Excel
takumiwu: Miss.value是什么东西
asp部分实用功能代码
xiegao: http://www.shangbiaodesign.cn
多种基于html正文提取的思想
xiegao: http://www.shangbiaodesign.cn
多种基于html正文提取的思想
匿名用户: 目前互联网上公布出来的正文提取算法，大家可以综合比较下，一起来测试下哪个更好用。词网--北京词网科技有限公司 http://demo.cikuu.com/cgi-bin/cgi-contex 猎兔网页正文提取 http://www.lietu.com/extract/ PHP版网页正文提取 http://www.woniu.us/get_content_demo/ 网页正文提取分析(DEMO) http://61.128.196.27/txt 个人认为http://61.128.196.27/txt 这个提取最牛，基本上无论什么页面都能提取出来，而且能有效的保持原文风格、图片、链接。

最新文章

提示

确定要删除当前文章？

取消删除