- 博客(3)
- 资源 (7)
- 收藏
- 关注
转载 网页正文抽取中的网页编码字符集自动识别最佳方案
易尔译科技(http://www.12fanyi.cn)团队过去在做正文抽取的时候经常会碰到因为网页字符集编码不同,抽取了很多乱码,现将一些文章收集整理一下,供新手参考,高手就别见笑了。 第一篇来自http://www.cnblogs.com/lersh/archive/2008/07/09/1238799.html《比IE准确率更高的自动字符集检测类 UniversalCharDet 》,我摘
2009-10-20 23:24:00 3138 1
转载 C#版正文抽取所需正则全集
在正文抽取(正文提取)里一般会用到的正则,易尔译科技收集了一下,是C#版本的正文抽取正则表达式。欢迎大家补充。#region 相关正则表达式 /// /// 去掉所有html标签 /// private static readonly Regex FilterAll = new Regex( @"(/[([^=]*)(=[^/]]*)?/][/s/S]*?/[//1/])|(?(?=
2009-10-20 23:21:00 1473
转载 搜索引擎当前主流正文提取的思路
网页由于格式千变万化,要找到一种能提取任意网页正文的算法,并能达到应用需要的准确度,具有一定难度。因此,总避免不了在提取程序中添加一些规则,对不同的网页类型作不同处理。另外,有人利用开源的Tidy,把不规范的网页规范化,然后利用DOM Tree,把包含正文的...提取出来,然后去除其中的链接信息。 还有一种简单的方法:对网页中的所有 ...,计算其中所含内容中的中文标点符号,并结合内容中所包含的链
2009-10-20 23:19:00 1552
使用C#调用windows API入门
2012-02-29
AspJpeg组件
2012-02-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人