自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 推荐系统之算法介绍

前言 随着电子商务的发展,网络购物成为一种趋势,当你打开某个购物网站比如淘宝、京东的时候,会看到很多给你推荐的产品,你是否觉得这些推荐的产品都是你似曾相识或者正好需要的呢。这个就是现在电子商务里面的推荐系统,向客户提供商品建议和信息,模拟销售人员完成导购的过程。简介推荐系统简介什么是推荐系统呢?维基百科这样解释道:推荐系统属于资讯过滤的一种应用。推荐系统能够将可能受喜好

2015-01-27 11:47:30 10660

原创 具有约束关系的因素如何实施组合测试

关键词:组合测试,因素具有约束关系,PICT实施组合测试PICT的全称是Pairwise Independent Combinatorial Testing tool 本文总结了我在组合测试实践中获得的一些经验,组合测试百度一下有各种博文介绍,不过其中的例子大多是比较简单易懂的,我这里遇到的问题稍稍复杂了一些,因素之间具有约束关系,这里使用微软的工具PICT详细介绍如何定义约束关系生成

2015-01-20 09:25:38 1061

翻译 《实体解析与信息质量》-1.2.2 实体引用准备

实体引用准备为了有效的执行处理过程,即使使用的是结构化格式的实体引用数据,额外的预处理仍然是很必要的。一般这个预处理过程被称为ETL(extract, transform, and load)。有时候也被称为数据清洗. 以下是为实体解析做预处理的通常流程(Talley,Talburt, Chan, 2010):编码—将输入数据从一种编码格式转换为另一种。例如,将ASCII 编码的数

2015-01-19 16:15:31 867

翻译 《实体解析与信息质量》-1.2.1 实体引用抽取

实体引用抽取: ERA1许多与数据处理相关的系统设计,都会基于这样一个假设:即它所处理的数据源所包含的是结构化的数据。所谓结构化数据,是指该数据源中的实体信息以一种一致的,可被预测的形式组织起来的。举例来说,关系型数据库系统中的行-列格式,其中每一行代表了一个实体引用,而实体引用的属性值也总是在任意一行以相同的顺序出现。因此数据库可以被认为是结构化的数据源。只有当获取实体引用的数据源中

2015-01-12 15:20:47 1131

原创 字符串相似度算法(编辑距离Levenshtein Distance)

什么是Levenshtein编辑距离(Edit Distance),最先是由俄国科学家Vladimir Levenshtein在1965年发明,用他的名字命名,又称Levenshtein距离。是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。例如:将 jary 转成 jerryjary --- j

2015-01-09 11:38:36 7588 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除