自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Life

能看开的就看开,看不开的就摆平;能摆平的就摆平,摆不平的就看开!

  • 博客(3)
  • 资源 (7)
  • 收藏
  • 关注

转载 网页正文抽取中的网页编码字符集自动识别最佳方案

易尔译科技(http://www.12fanyi.cn)团队过去在做正文抽取的时候经常会碰到因为网页字符集编码不同,抽取了很多乱码,现将一些文章收集整理一下,供新手参考,高手就别见笑了。  第一篇来自http://www.cnblogs.com/lersh/archive/2008/07/09/1238799.html《比IE准确率更高的自动字符集检测类 UniversalCharDet 》,我摘

2009-10-20 23:24:00 3138 1

转载 C#版正文抽取所需正则全集

在正文抽取(正文提取)里一般会用到的正则,易尔译科技收集了一下,是C#版本的正文抽取正则表达式。欢迎大家补充。#region 相关正则表达式 ///  /// 去掉所有html标签 ///  private static readonly Regex FilterAll = new Regex( @"(/[([^=]*)(=[^/]]*)?/][/s/S]*?/[//1/])|(?(?=

2009-10-20 23:21:00 1473

转载 搜索引擎当前主流正文提取的思路

网页由于格式千变万化,要找到一种能提取任意网页正文的算法,并能达到应用需要的准确度,具有一定难度。因此,总避免不了在提取程序中添加一些规则,对不同的网页类型作不同处理。另外,有人利用开源的Tidy,把不规范的网页规范化,然后利用DOM Tree,把包含正文的...提取出来,然后去除其中的链接信息。 还有一种简单的方法:对网页中的所有 ...,计算其中所含内容中的中文标点符号,并结合内容中所包含的链

2009-10-20 23:19:00 1552

使用C#调用windows API入门

C#使用非常简单,写程序简单。想玩儿吗?呵呵,没办法直接控制Windows的核心。 难道就没有两全其美的办法吗?当然不是!要不微软的产品早就没人买了。其实从C#(或者说.NET平台)调用Win32 API还是非常简单滴~~~~今天偶们大家就一起来研究研究。

2012-02-29

AspJpeg组件

1、AspJpeg是一款功能强大的基于Microsoft IIS环境的图片处理组件,网络上对其进 行详细和深入介绍的中文文章并不多,即使有一般也只是牵涉到图片缩略图和图片水印,这与其为英文版本有着密切的关系。   AspJpeg可以使用很少的代码在您的ASP/ASP.Net应用程序上动态的创建高质量的缩略图象,支 持的图象格式有:JPEG, GIF, BMP, TIFF, PNG。   AspJpeg主要可以做到:生成缩略图片、生成水印图片、图片合并、图片切割、数据库支持、 安全码技术 ASPJPEG是一款功能相当强大的图象处理组件,用它可以轻松地做出图片的缩略图和为图片加 上水印功能。

2012-02-29

IBM笔记本拆机文档图解

对于某些使用笔记本的人,如果散热或者需要DIY某些东西的话,拆机是必须的,通过IBM笔记本拆解可以学习下。

2011-09-14

htmlparser学习文档

htmlparser学习文档,用于htmlparser解析器的使用描述,可以帮助网页数据挖掘使用。

2011-09-14

数据备份恢复讲座-达摩克利斯之剑

对于数据备份恢复讲座,讲解基本的数据备份恢复概念和常用架构技术,是难得的材料PPT

2011-06-12

Java多线程设计模式

Java多线程设计模式,介绍多线程的应用模式和方法。

2009-12-09

VMware备份方法汇总

VMware备份方法汇总,主要介绍基于VMware架构的虚拟机备份问题,介绍了多种实用方法和软件。

2009-02-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除