2009年10月_yongping8204

10月 05月 02月

转载网页正文抽取中的网页编码字符集自动识别最佳方案

易尔译科技（http://www.12fanyi.cn）团队过去在做正文抽取的时候经常会碰到因为网页字符集编码不同，抽取了很多乱码，现将一些文章收集整理一下，供新手参考，高手就别见笑了。　　第一篇来自http://www.cnblogs.com/lersh/archive/2008/07/09/1238799.html《比IE准确率更高的自动字符集检测类 UniversalCharDet 》，我摘

2009-10-20 23:24:00 3138 1

转载 C#版正文抽取所需正则全集

在正文抽取（正文提取）里一般会用到的正则，易尔译科技收集了一下，是C#版本的正文抽取正则表达式。欢迎大家补充。#region 相关正则表达式 /// /// 去掉所有html标签 /// private static readonly Regex FilterAll = new Regex( @"(/[([^=]*)(=[^/]]*)?/][/s/S]*?/[//1/])|(?(?=

2009-10-20 23:21:00 1473

转载搜索引擎当前主流正文提取的思路

网页由于格式千变万化，要找到一种能提取任意网页正文的算法，并能达到应用需要的准确度，具有一定难度。因此，总避免不了在提取程序中添加一些规则，对不同的网页类型作不同处理。另外，有人利用开源的Tidy,把不规范的网页规范化，然后利用DOM Tree，把包含正文的...提取出来，然后去除其中的链接信息。还有一种简单的方法：对网页中的所有 ...，计算其中所含内容中的中文标点符号，并结合内容中所包含的链

2009-10-20 23:19:00 1552

使用C#调用windows API入门

C#使用非常简单，写程序简单。想玩儿吗？呵呵，没办法直接控制Windows的核心。难道就没有两全其美的办法吗？当然不是！要不微软的产品早就没人买了。其实从C#（或者说.NET平台）调用Win32 API还是非常简单滴~~~~今天偶们大家就一起来研究研究。

2012-02-29

AspJpeg组件

1、AspJpeg是一款功能强大的基于Microsoft IIS环境的图片处理组件，网络上对其进行详细和深入介绍的中文文章并不多，即使有一般也只是牵涉到图片缩略图和图片水印，这与其为英文版本有着密切的关系。　　AspJpeg可以使用很少的代码在您的ASP/ASP.Net应用程序上动态的创建高质量的缩略图象，支持的图象格式有：JPEG, GIF, BMP, TIFF, PNG。　　AspJpeg主要可以做到：生成缩略图片、生成水印图片、图片合并、图片切割、数据库支持、安全码技术 ASPJPEG是一款功能相当强大的图象处理组件，用它可以轻松地做出图片的缩略图和为图片加上水印功能。

2012-02-29