algorithm
robert_zhai
Life is short, cherish what we have owned !
My github is https://robertzhai.github.io 。
展开
-
二分求两边单调性相反的数组的最大值
给定一个数组a[0~n-1],前面部分是严格单调递增,后面部分是严格单调递减(所以存在最大值),求最大值和它的索引(下标) int maxmum(int *arr,int left,int right) { if(right-left return arr[left]>arr[right] ? arr[left] : arr[right]; }原创 2012-12-26 20:03:48 · 512 阅读 · 0 评论 -
SCWS
http://blog.163.com/lgh_2002/blog/static/44017526201122953753657/ SCWS 全称是 Simple Chinese Words Segmentation 即简易中文分词系统。 C版简易中文分词-cscwsd-0.0.3 发布 下载地址:http://www.hightman.cn/down/cscwsd-0.0.3.tg转载 2013-01-15 11:20:46 · 456 阅读 · 0 评论 -
清华大学自然语言处理组网站
http://nlp.csai.tsinghua.edu.cn/site2/转载 2013-01-27 16:54:42 · 1120 阅读 · 0 评论 -
机器学习相关——协同过滤
1 什么是协同过滤 协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (Collaborative Filtering, 简称 CF),首先想一个简单的问题,如果你现在想看个电影,但你不知道具体看哪部,你会怎么做?大部分的人会问问周围的朋友,看看最近有什么好看的电影推荐,而我们一般更倾向于从口味比较类似的朋友那里得到推荐。这就是协同过滤的核心思想。 换句话说,就是借鉴和你相关转载 2013-01-25 14:08:19 · 368 阅读 · 0 评论 -
算法导论红黑树
转载 2013-01-05 09:49:31 · 253 阅读 · 0 评论 -
machine learning
machine learning algorithm study http://v.163.com/movie/2008/1/M/C/M6SGF6VB4_M6SGHFBMC.html, you will get to know supervised learning and nonsupervised learning and reinforcement learning algorithms原创 2013-01-04 21:03:45 · 287 阅读 · 0 评论 -
字符串循环右移动K位
/* * shift.cpp * * Created on: 2013-1-1 * Author: Administrator */ #include #include void reverse(char *p,int begin,int end) { char tmp ; while(begin tmp = p[begin]; p[b原创 2013-01-01 12:56:53 · 493 阅读 · 0 评论 -
Powering a number
//============================================================================ // Name : an_square.cpp a的n次方 // Author : // Version : // Copyright : Your copyright notice // De原创 2013-01-02 16:26:35 · 382 阅读 · 0 评论 -
二路归并排序
//============================================================================ // Name : merge_sort.cpp // Author : // Version : // Copyright : Your copyright notice // Descrip原创 2013-01-02 10:51:09 · 263 阅读 · 0 评论 -
Top K算法问题的实现
http://blog.csdn.net/v_july_v/article/details/6403777#comments //copyright@yansha &&July //July、updated,2011.05.08 //题目描述: //搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的 //长度为1-255字节。假设目前转载 2012-12-30 22:39:38 · 475 阅读 · 0 评论 -
从头到尾彻底解析Hash 表算法
http://blog.csdn.net/v_JULY_v/article/details/6256463 作者:July、wuliming、pkuoliver 出处:http://blog.csdn.net/v_JULY_v。 说明:本文分为三部分内容, 第一部分为一道百度面试题Top K算法的详解;第二部分为关于Hash表算法的详细阐述;第三部分为打造一个最转载 2012-12-30 22:52:43 · 385 阅读 · 0 评论 -
Trie树:应用于统计和排序
http://blog.csdn.net/hguisu/article/details/8131559 1. 什么是trie树 1.Trie树 Trie树,又称单词查找树、字典树,是一种树形结构,是一种哈希树的变种,是一种用于快速检索的多叉树结构。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:最转载 2012-12-30 23:05:37 · 321 阅读 · 0 评论 -
十道海量数据处理面试题
http://blog.csdn.net/v_JULY_v/article/details/6279498 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个转载 2012-12-30 22:49:49 · 407 阅读 · 0 评论 -
统计出现次数最多的数据
http://blog.csdn.net/v_july_v/article/details/6403777#comments 题目描述: 给你上千万或上亿数据(有重复),统计其中出现次数最多的前N个数据。 分析:上千万或上亿的数据,现在的机器的内存应该能存下(也许可以,也许不可以)。所以考虑采用hash_map/搜索二叉树/红黑树等来进行统计次数。然后就是取出前N个出现次转载 2012-12-30 22:46:14 · 6320 阅读 · 1 评论 -
.Google PageRank 算法
1.1、PageRank(网页级别)的概念 互联网发展早期的搜索引擎,对web页面的排序,是根据搜索的词组(短语)在页面中的出现次数(occurence ),并用页面长度和html标签的重要性提示等进行权重修订。链接名气(link popularity)技术通过其它文档链接到当前页面(inbound links)的链接数量来决定当前页的重要性,这样可以有效地抵制被人为加工的页面欺骗搜索引转载 2012-12-29 23:37:40 · 553 阅读 · 0 评论 -
最大公共子序列
好久没搞算法了,温习下 问题的递归式写成: 回溯输出最长公共子序列过程: 算法分析: 由于每次调用至少向上或向左(或向上向左同时)移动一步,故最多调用(m + n)次就会遇到i = 0或j = 0的情况,此时开始返回。返回时与递归调用时方向相反,步数相同,故算法时间复杂度为Θ(m + n)。转载 2012-12-27 17:19:27 · 247 阅读 · 0 评论 -
如何判断一个整数数组中是否有重复元素
写一个函数判断一个int类型的数组是否是有效的。 所谓有效是指:假设数组大小为n,那么这个int数组里的值为0~n-1之间的数,并且每个数只能出现一次,否则就是无效数组 典型的空间换时间 开个大数组,遍历一遍,每次数量加1,若加前不为0就不是 void output(int *arr, int num) { for(int i=0;i cout原创 2012-12-26 21:03:07 · 3178 阅读 · 1 评论 -
外部排序算法
原理也很简单,就是归并排序的应用,不过是用时间换空间。原创 2013-03-27 23:48:10 · 581 阅读 · 0 评论