C#
netcpl
软件开发,服务器部署
展开
-
支持htm,html转换成mht
/// 源路径/// 转换后的路径 /// private string mht_show(string srcpath,string aimPath) ...{ try ...{ if(!Directory.Exists(srcpath)) ...{ string txtname=srcpath.Subst转载 2007-02-08 14:43:00 · 2362 阅读 · 0 评论 -
多种基于html正文提取的思想
一、基于统计的中文网页正文抽取的研究 摘 要:信息抽取技术是一种广泛运用于互联网的数据挖掘技术。其目的是从互联网海量数据中抽取有意义、有价值的数据和信息,从而能更好的利用互联网资源。文中采用一种统计网页特征的方法,将中文网页中的正文部分抽取出来。该方法首先将网页表示成基于XML的DOM树形式,利用统计的节点信息从树中过滤掉噪音数据节点,最后再选取正文节点。该方法相比传统的基于包装器原创 2009-06-26 10:02:00 · 9260 阅读 · 3 评论