数据算法
文章平均质量分 75
数据中国
数据中国是由一群致力于提高信息质量服务的年轻人创建的分享平台,我们期望通过这个平台学习和分享在数据质量等领域的经验。
展开
-
中文相似度匹配算法
基于音形码的中文字符串相似度算法背景介绍字符串相似度算法是指通过一定的方法,来计算两个不同字符串之间的相似程度。通常会用一个百分比来衡量字符串之间的相似程度。字符串相似度算法被应用于许多计算场景,在诸如数据清洗,用户输入纠错,推荐系统, 剽窃检测系统,自动评分系统,以及网页搜索和DNA序列匹配这些方向都有着十分广泛的应用。 常见的字符串相似度算法包括编辑距离算法(EditDista原创 2014-11-14 10:39:31 · 65287 阅读 · 26 评论 -
python实现布隆过滤器对数据去重
一、直观的数据去重方式通常我们采用如下算法对一组长度为n的数据d进行去重时。S1.在数据中取出第x个数据(1≤xS2.在数据中取出第y个数据(xS3.比较d[x]和d[y],若相同丢弃d[y],重复S2,S3直到y=nS4.重复S1,S2,S3直到x=n-1 此算法时间复杂度近似T(n)=O(1/2n²),空间需求为size(d)。假设现有一组数据d,单条长度500原创 2015-11-13 14:39:30 · 5210 阅读 · 0 评论 -
【LeetCode-面试算法经典-Java实现】【05-Longest Palindromic Substring(最大回文字符串)】
背景最近开始研究算法,于是在leetcode上做算法题,第五题Longest Palindromic Substring便是关于回文子串的。什么是回文字串回文字符串是指将该字符串前后颠倒之后和该字符串一样的字符串。例如:a,aaaa,aba,abba…最长回文子串要求最长回文子串,就需要遍历每一个子串,时间复杂度是O(N²);判断字串是不是回文,时间复杂度是原创 2015-08-18 09:37:53 · 1481 阅读 · 0 评论 -
获取两个字符串所有公共的子串算法
应用场景: 获取两个字符串所有公共的子串。思路: 1. 先获取两个子串的交集 2. 遍历交集子串,从最短子串到最长子串public static List getAllCommonSubStrings(String str1, String str2) { //TODO null check. Strin原创 2015-07-01 17:38:23 · 4019 阅读 · 0 评论 -
String 常用方法最优算法实现总结 (二)
1. String getOrderedString(boolean isDuplicated, String … str)说明: Orders all characters in the input strings and return the ordered string.(note: only considering the alphabets and digits) i.e:原创 2015-06-25 13:58:11 · 1171 阅读 · 0 评论 -
String 常用方法最优算法实现总结 (一)
1. reverse /** * @Description: reverse a string. * @param str the String to reverse, may be null * @return reversedStr the reversed String, null if null String input */ publi原创 2015-06-24 14:49:11 · 996 阅读 · 0 评论 -
基于数据分析,是否自动档汽车比手动挡更耗油
Overview这是一个多元回归方程用于揭示汽车油耗和汽车属性之间的关系,试图回答常见的问题:是否自动档的汽车更费油?除了自动档这个属性,还有其他属性和汽车耗油之间的关系更大吗?原文见于RPubs.分析基于R语言,mtcars小数据集(可以扩展到更大数据集),希望对读者有所帮助。原创 2015-04-08 17:18:44 · 2507 阅读 · 1 评论 -
排序算法总结(java)
排序算法排序是将无需的记录序列调整为有序记录序列的一种操作。包括:冒泡排序,选择排序,堆排序,插入排序,希儿排序,快速排序,归并排序等。 (一)冒泡排序基本思想:每次进行相邻两个元素的比较,如果为逆序时即进行交换,直到没有反序的数据元素为止。排序过程:设想被排序的原创 2015-04-03 15:27:26 · 1353 阅读 · 1 评论 -
字符串匹配算法总结 (分析及Java实现)
字符串模式匹配算法(string searching/matching algorithms)顾名思义,就是在一个文本或者较长的一段字符串中,找出一个或多个指定字符串(Pattern),并返回其位置。这类算法属基础算法,各种编程语言都将其包括在自带的String类函数中,而且由之衍生出来的正则表达式也是必须掌握的一种概念和编程技术。原创 2015-02-13 10:58:16 · 21855 阅读 · 1 评论 -
推荐系统之算法介绍
前言 随着电子商务的发展,网络购物成为一种趋势,当你打开某个购物网站比如淘宝、京东的时候,会看到很多给你推荐的产品,你是否觉得这些推荐的产品都是你似曾相识或者正好需要的呢。这个就是现在电子商务里面的推荐系统,向客户提供商品建议和信息,模拟销售人员完成导购的过程。简介推荐系统简介什么是推荐系统呢?维基百科这样解释道:推荐系统属于资讯过滤的一种应用。推荐系统能够将可能受喜好原创 2015-01-27 11:47:30 · 10691 阅读 · 0 评论 -
字符串相似度算法(编辑距离Levenshtein Distance)
什么是Levenshtein编辑距离(Edit Distance),最先是由俄国科学家Vladimir Levenshtein在1965年发明,用他的名字命名,又称Levenshtein距离。是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。例如:将 jary 转成 jerryjary --- j原创 2015-01-09 11:38:36 · 7618 阅读 · 1 评论 -
腾讯千亿节点相似度计算
转自http://data.qq.com/article?id=825TDW千台Spark千亿节点对相似度计算2014-11-16分类:TDW 相似度计算在信息检索、数据挖掘等领域有着广泛的应用,是目前推荐引擎中的重要组成部分。随着互联网用户数目和内容的爆炸性增长,对大规模数据进行相似度计算的需求变得日益强烈。在传统的MapReduce框架转载 2014-11-26 08:51:41 · 3418 阅读 · 0 评论 -
字符串搜索算法 - 总结
从个人博客里搬过来的,关于各种问题: 在一长字符串中找出其是否包含某子字符串。 首先当然还是简单算法,通过遍历来检索所有的可能: Java代码 public static int naiveSearch(String content, String sub) { for(int i = 0; i 1); i++) {原创 2014-10-29 17:01:47 · 1045 阅读 · 0 评论 -
算法常用公式总结
原创 2015-06-15 10:25:55 · 2277 阅读 · 0 评论