- 博客(17)
- 资源 (10)
- 问答 (1)
- 收藏
- 关注
原创 2012-3-30日总结
今天脖子疼,效率极低,本来想弄一弄fingerdiff的,可是感觉力不从心啊,耽误了那么多时间,一点思路都没有,真的不知道该怎么办。然后下午也在思考,就是不知道该怎么实现,有了一点思路可是就是不知道怎么做。然后晚上就把项目按自己的想法做了一下,Flex那么的项目应该没有问题了,就是后面的扩展问题需要解决。 后面提高效率吧,也不要太紧张了,一步一步来吧,能力大小因人而异,只要做自己喜欢的事情
2012-03-30 00:13:38 583
原创 笔试题1--猫吃老鼠问题
题目: 有N个老鼠,排成一队,按顺序,1,2....N 。一只猫从任意位置开始吃,每隔一个吃一个,循环吃。例如: 老鼠有1,2,3,4,5,6,7个,从第二个开始吃,则吃的顺序为:2,4,6,1,5,3,7思路: 从某一个位置first开始吃的话,间隔一个在next处继续吃。那么这道题关键是要找到下一个开始吃的位置在哪里。 可能遇到的情况,fi
2012-03-29 22:21:31 2484
原创 2012-3-28日总结
今天主要是完成bug调试,以及FLex上面显示数据,今天上午完成相关的东西,下午基本实现简易功能。然后就想了下如何设计界面,交互,以及后面的扩充方面的任务。大概进展的还比较顺利,自己就显得比较懒散了,老是不想做。然后下午就先结束了已经完成的项目初步版本,就开始做其他的了。现在最大的问题就是如何设计和实现fingerdiff算法,网络上面也没有相关代码可以查,而且资料比较短缺,后面只能从各篇论文中找
2012-03-29 00:02:05 539
原创 2012-3-27日总结
今天一切还算比较顺利,代码中的bug也差不多调完了,10000组数据测得过程中也没有出现类似问题,主要是每次查询需要等待一会,这样就好了,还有就是有一个地方用完数据库没有关闭连接,然后设计了一个单例模式解决了加载过程内存消耗大的问题。然后下午进行FLEx连接,反正现在数据连接正常,同时测试服务器端也是正常的。现在就是需要对服务器端传来的数据进行处理搞不懂,因为传过来的是一个对象,我需要提取里面有用
2012-03-27 23:12:48 453
原创 2012-3-26日总结
今天上午在调bug,主要是遇到了outofmemery的问题,然后就在网上找那些可以协助我来进行检查问题的工具,耽误了一上午,最后使用了eclipse的MAT进行内存检测,使用起来比较简单,只需要调整jvm参数就可以了,然后生成prof堆分析文件,然后利用这个工具就可以进行各种内存暂用分析,初步解决了这个问题。但是下午又出现问题了,数据库连接的问题,我用for循环测试,100个数据没有问题,100
2012-03-26 21:34:34 512
原创 2012-3-25日总结
今天上午在研究存储,思考了很久如何要实现fingerdiff的话,需考虑如何生成逻辑块,由于实际唯一块都是cdc切分后的数据块经过链接聚合成一个大块的,但是我们在cdc切分的小数据块的过程中,我们需记录hashkey,size 以及offset(在一个大的superchunk中),但是当一个superchunk形成后,我们需要判断是否重复,如果判断不出则需要进行子块划分来进一步判断是否有重复数据,
2012-03-25 23:46:16 651
原创 2012-3-24日总结
今天上午总结了下BM25算法,同时读了一篇sigir07的论文,主要是基于邻近词语的最小距离,来计算文档的得分等级,我研究中发现。一种基于span的距离计算,和这种基于集合的距离计算,可以做一个折中。即既考虑唯一匹配字符串,也考虑词语距离,这种折中感觉应该成为global和local的折中,估计性能应该有所提升,如何设计代数式以及如何测试以及如何加入Bm25算法中是一个挑战 下午头疼中,fi
2012-03-24 21:28:45 411
原创 2012-3-22日总结
今天突然有心思去看了一下数据提取相关的论文,也算是开阔一下视野吧,主要是BM25算法的改进,通过加入新的相邻词语关系,已经查询到的唯一词数目,来进行某些权重的计算,感觉还是很有意思的。自己也总结了下,准备以后参加xapian用,并加入了Xapian的开发的邮件列表,以及IRC,以后有机会多上这里面逛逛,相信会有很大的提升。以下是我总结的BM25算法改进相关内容,自己用英语写的函数值问题(如何将
2012-03-22 23:24:20 540
原创 2012-3-21日
今天又去google summer上面看了下有没有什么好的project可以参与,经过一上午发现了一个medium等级的project看懂了,主要就是多种情况的测试,哎,真后悔自己不早点知道,今天一天研究各种方案,可是晚上一跑原来的工程,不会允许,而且xapian的运行感觉比较复杂,哎,算了不搞了,这下我是真的死心了,好好做自己的存储了,不能再想了,只能后悔自己以前不努力,不好好学习,不好好搞学习
2012-03-21 22:38:25 491
原创 2012-3-20日总结
今天又在看dedup的源代码,前面几天没有效率,在内存拷贝上面有很多不懂,看起来感觉好复杂啊,但是昨天看懂了cdc部分的代码,对内存拷贝,压缩包头信息,逻辑文件信息,元数据信息有了进一步的学习。对这些有了更好的认识,今天对FSP,SB算法有了更深的认识。 现在感觉,很多东西都是入门比较难,但是当你掌握的时候就会迎刃而解,不能急,只要静下心来就能学的更好。本来自己很想参加google s
2012-03-20 22:22:39 415
原创 2012-3-19日总结
今天大部分时间都在研究CDC基于文件内容的块切分方法,由于该CDC方法是基于一个开源软件dedup的,单存研究算法不太可能,需要对该函数上下文进行学习。基本上了解了CDC基于内容的块切分算法。大体思路如下:1 从文件中读取数据,以exp_size大小来读取,将其读取到BUF中,这个exp_size第一次的大小为BUF_MAX_SIZE,然后后面每次为BUF_MAX_SIZE-上一次该buf未被
2012-03-19 22:54:32 693
原创 2012-3-18日总结
今天感觉没干什么事情,一路在找cdc算法实现,并研究相关代码,毫无所得,郁闷啊,明天继续,这么个算法把我搞得心情不爽,哎~加油吧
2012-03-18 23:41:30 542
原创 2012-3-17日总结
不知不觉时间又到了这个时候,今天不在状态,上午看算法,总是看不进去,可能散列表这节有点难吧,所以一上午就在那里看看网页,了解下国家的一些会议呀什么的,就过了一上午。 下午感到特别困,不知道咋的,什么事情都不想干,那就躺床上吧,听听书虫里面的英文,感觉还是很有趣的,今天听的是一个叫under the Moon的故事,还带点科幻色彩吧,主题就是关于地球毁灭的吧,地球的实际统治者不关心地球的
2012-03-17 23:53:24 729
原创 2012-3-16日总结
自己本身就不太喜欢写东西,以前自己定目标要每天写日记,可是就是坚持不下来。这段时间有了csdn的博客自己也就零零散散的写点东西,反正总的感觉就是写的不精,只能自己作为练手和记录学习过程的纪念,不过感觉也是蛮好的。想想这段时间的学习过程,自己觉得每天学的东西多,但是没有梳理,没有总结。总是不断的学习新的东西,没有花一定时间对已学过的知识的总结,这就造成了一种猴子搬包谷的现象,搬的包谷多,自己也很累,
2012-03-17 00:28:52 630
转载 一个男人关心的东西 决定了他的层次
一个男人关心的东西 决定了他的层次一、拥有自信和风度 男人到了二十几岁后,就要开始学着用心去经营自己了,它体现在自己的思想与涵养上。自信是一个男人最重要的品质,自信的男人就你像一只在暴风雨中战斗的海鸥。海鸥所要说的只有一句话“让暴风雨来的再猛烈些吧”,只因为它无所畏惧。一个自信的男人,总是能够感染别人,无论这些人是朋友还是敌人。要使别人对你有信心,就必须要先对自己充满信心。自信的男人可以战
2012-03-15 14:39:09 2300
原创 java中PriorityQueue优先级队列使用方法
优先级队列是不同于先进先出队列的另一种队列。每次从队列中取出的是具有最高优先权的元素。 PriorityQueue是从JDK1.5开始提供的新的数据结构接口。 如果不提供Comparator的话,优先队列中元素默认按自然顺序排列,也就是数字默认是小的在队列头,字符串则按字典序排列。 由于网上的资料大多将优先级队列各个方法属性,很少有实例讲解的,为方便大家以后使用,我就写
2012-03-08 21:12:18 102527 5
原创 数组中逆序对统计方法
首先阐述一下逆序对的概念。假设有一个数组为Array[0..n] 其中有元素a[i],a[j].如果 当ia[j],那么我们就称(a[i],a[j])为一个逆序对。 那么统计一个数组中的逆序对,有什么作用呢。逆序对可以反映插入排序的效率问题,如果逆序对数量多,那么插入排序的效率就低,反之亦然。 那么如何快速的找到逆序对的数量,同时又能够对数组进行排序,并且使得复杂度为O(n*l
2012-03-03 19:04:28 4626
Java Concurrency in Practice.mobi
2017-09-20
Java Concurrency in Practice(Java并发编程实战)
2017-09-20
大数据处理算法课件
2012-06-25
任意位整数相加
2012-06-01
基于lex的shell简单实现
2012-05-31
A*解决8数码问题Java版
2012-05-05
Flex4.5做的3D网页效果展示墙
2012-03-13
大数据相关技术很多,怎么选择合适的学习方向?
2016-06-27
TA创建的收藏夹 TA关注的收藏夹
TA关注的人