- 博客(5)
- 收藏
- 关注
原创 推荐系统之算法介绍
前言 随着电子商务的发展,网络购物成为一种趋势,当你打开某个购物网站比如淘宝、京东的时候,会看到很多给你推荐的产品,你是否觉得这些推荐的产品都是你似曾相识或者正好需要的呢。这个就是现在电子商务里面的推荐系统,向客户提供商品建议和信息,模拟销售人员完成导购的过程。简介推荐系统简介什么是推荐系统呢?维基百科这样解释道:推荐系统属于资讯过滤的一种应用。推荐系统能够将可能受喜好
2015-01-27 11:47:30 10660
原创 具有约束关系的因素如何实施组合测试
关键词:组合测试,因素具有约束关系,PICT实施组合测试PICT的全称是Pairwise Independent Combinatorial Testing tool 本文总结了我在组合测试实践中获得的一些经验,组合测试百度一下有各种博文介绍,不过其中的例子大多是比较简单易懂的,我这里遇到的问题稍稍复杂了一些,因素之间具有约束关系,这里使用微软的工具PICT详细介绍如何定义约束关系生成
2015-01-20 09:25:38 1061
翻译 《实体解析与信息质量》-1.2.2 实体引用准备
实体引用准备为了有效的执行处理过程,即使使用的是结构化格式的实体引用数据,额外的预处理仍然是很必要的。一般这个预处理过程被称为ETL(extract, transform, and load)。有时候也被称为数据清洗. 以下是为实体解析做预处理的通常流程(Talley,Talburt, Chan, 2010):编码—将输入数据从一种编码格式转换为另一种。例如,将ASCII 编码的数
2015-01-19 16:15:31 867
翻译 《实体解析与信息质量》-1.2.1 实体引用抽取
实体引用抽取: ERA1许多与数据处理相关的系统设计,都会基于这样一个假设:即它所处理的数据源所包含的是结构化的数据。所谓结构化数据,是指该数据源中的实体信息以一种一致的,可被预测的形式组织起来的。举例来说,关系型数据库系统中的行-列格式,其中每一行代表了一个实体引用,而实体引用的属性值也总是在任意一行以相同的顺序出现。因此数据库可以被认为是结构化的数据源。只有当获取实体引用的数据源中
2015-01-12 15:20:47 1131
原创 字符串相似度算法(编辑距离Levenshtein Distance)
什么是Levenshtein编辑距离(Edit Distance),最先是由俄国科学家Vladimir Levenshtein在1965年发明,用他的名字命名,又称Levenshtein距离。是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。例如:将 jary 转成 jerryjary --- j
2015-01-09 11:38:36 7588 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人