每日总结
hiphopmattshi
这个作者很懒,什么都没留下…
展开
-
2012-3-24日总结
今天上午总结了下BM25算法,同时读了一篇sigir07的论文,主要是基于邻近词语的最小距离,来计算文档的得分等级,我研究中发现。一种基于span的距离计算,和这种基于集合的距离计算,可以做一个折中。即既考虑唯一匹配字符串,也考虑词语距离,这种折中感觉应该成为global和local的折中,估计性能应该有所提升,如何设计代数式以及如何测试以及如何加入Bm25算法中是一个挑战 下午头疼中,fi原创 2012-03-24 21:28:45 · 405 阅读 · 0 评论 -
2012-3-19日总结
今天大部分时间都在研究CDC基于文件内容的块切分方法,由于该CDC方法是基于一个开源软件dedup的,单存研究算法不太可能,需要对该函数上下文进行学习。基本上了解了CDC基于内容的块切分算法。大体思路如下:1 从文件中读取数据,以exp_size大小来读取,将其读取到BUF中,这个exp_size第一次的大小为BUF_MAX_SIZE,然后后面每次为BUF_MAX_SIZE-上一次该buf未被原创 2012-03-19 22:54:32 · 686 阅读 · 0 评论 -
2012-3-20日总结
今天又在看dedup的源代码,前面几天没有效率,在内存拷贝上面有很多不懂,看起来感觉好复杂啊,但是昨天看懂了cdc部分的代码,对内存拷贝,压缩包头信息,逻辑文件信息,元数据信息有了进一步的学习。对这些有了更好的认识,今天对FSP,SB算法有了更深的认识。 现在感觉,很多东西都是入门比较难,但是当你掌握的时候就会迎刃而解,不能急,只要静下心来就能学的更好。本来自己很想参加google s原创 2012-03-20 22:22:39 · 410 阅读 · 0 评论 -
2012-3-21日
今天又去google summer上面看了下有没有什么好的project可以参与,经过一上午发现了一个medium等级的project看懂了,主要就是多种情况的测试,哎,真后悔自己不早点知道,今天一天研究各种方案,可是晚上一跑原来的工程,不会允许,而且xapian的运行感觉比较复杂,哎,算了不搞了,这下我是真的死心了,好好做自己的存储了,不能再想了,只能后悔自己以前不努力,不好好学习,不好好搞学习原创 2012-03-21 22:38:25 · 484 阅读 · 0 评论 -
2012-4-09日总结
今天上午看了一下动态规划的算法,主要就是两种情况一种是装配线问题,一种是矩阵链问题,两种方式都存在最优子结构,以及可以递归求解子问题,同时可以根据获得的最优解,自底向上产生最优解的路径。然后看了一下原理吧,感觉动态规划需要好好理解,这种高级算法技巧不是一天就能掌握好的需要大量的练习。 下午一直在进行自己项目的调整,主要需要实现的就是词库的扩展功能,规定自定义词库格式,然后做一些接口,原创 2012-04-09 22:40:18 · 561 阅读 · 0 评论 -
2012-3-22日总结
今天突然有心思去看了一下数据提取相关的论文,也算是开阔一下视野吧,主要是BM25算法的改进,通过加入新的相邻词语关系,已经查询到的唯一词数目,来进行某些权重的计算,感觉还是很有意思的。自己也总结了下,准备以后参加xapian用,并加入了Xapian的开发的邮件列表,以及IRC,以后有机会多上这里面逛逛,相信会有很大的提升。以下是我总结的BM25算法改进相关内容,自己用英语写的函数值问题(如何将原创 2012-03-22 23:24:20 · 530 阅读 · 0 评论 -
2012-3-18日总结
今天感觉没干什么事情,一路在找cdc算法实现,并研究相关代码,毫无所得,郁闷啊,明天继续,这么个算法把我搞得心情不爽,哎~加油吧原创 2012-03-18 23:41:30 · 536 阅读 · 0 评论 -
2012-3-17日总结
不知不觉时间又到了这个时候,今天不在状态,上午看算法,总是看不进去,可能散列表这节有点难吧,所以一上午就在那里看看网页,了解下国家的一些会议呀什么的,就过了一上午。 下午感到特别困,不知道咋的,什么事情都不想干,那就躺床上吧,听听书虫里面的英文,感觉还是很有趣的,今天听的是一个叫under the Moon的故事,还带点科幻色彩吧,主题就是关于地球毁灭的吧,地球的实际统治者不关心地球的原创 2012-03-17 23:53:24 · 725 阅读 · 0 评论 -
2012-3-26日总结
今天上午在调bug,主要是遇到了outofmemery的问题,然后就在网上找那些可以协助我来进行检查问题的工具,耽误了一上午,最后使用了eclipse的MAT进行内存检测,使用起来比较简单,只需要调整jvm参数就可以了,然后生成prof堆分析文件,然后利用这个工具就可以进行各种内存暂用分析,初步解决了这个问题。但是下午又出现问题了,数据库连接的问题,我用for循环测试,100个数据没有问题,100原创 2012-03-26 21:34:34 · 506 阅读 · 0 评论 -
2012-3-25日总结
今天上午在研究存储,思考了很久如何要实现fingerdiff的话,需考虑如何生成逻辑块,由于实际唯一块都是cdc切分后的数据块经过链接聚合成一个大块的,但是我们在cdc切分的小数据块的过程中,我们需记录hashkey,size 以及offset(在一个大的superchunk中),但是当一个superchunk形成后,我们需要判断是否重复,如果判断不出则需要进行子块划分来进一步判断是否有重复数据,原创 2012-03-25 23:46:16 · 643 阅读 · 0 评论 -
2012-3-27日总结
今天一切还算比较顺利,代码中的bug也差不多调完了,10000组数据测得过程中也没有出现类似问题,主要是每次查询需要等待一会,这样就好了,还有就是有一个地方用完数据库没有关闭连接,然后设计了一个单例模式解决了加载过程内存消耗大的问题。然后下午进行FLEx连接,反正现在数据连接正常,同时测试服务器端也是正常的。现在就是需要对服务器端传来的数据进行处理搞不懂,因为传过来的是一个对象,我需要提取里面有用原创 2012-03-27 23:12:48 · 448 阅读 · 0 评论 -
2012-3-28日总结
今天主要是完成bug调试,以及FLex上面显示数据,今天上午完成相关的东西,下午基本实现简易功能。然后就想了下如何设计界面,交互,以及后面的扩充方面的任务。大概进展的还比较顺利,自己就显得比较懒散了,老是不想做。然后下午就先结束了已经完成的项目初步版本,就开始做其他的了。现在最大的问题就是如何设计和实现fingerdiff算法,网络上面也没有相关代码可以查,而且资料比较短缺,后面只能从各篇论文中找原创 2012-03-29 00:02:05 · 533 阅读 · 0 评论 -
2012-3-30日总结
今天脖子疼,效率极低,本来想弄一弄fingerdiff的,可是感觉力不从心啊,耽误了那么多时间,一点思路都没有,真的不知道该怎么办。然后下午也在思考,就是不知道该怎么实现,有了一点思路可是就是不知道怎么做。然后晚上就把项目按自己的想法做了一下,Flex那么的项目应该没有问题了,就是后面的扩展问题需要解决。 后面提高效率吧,也不要太紧张了,一步一步来吧,能力大小因人而异,只要做自己喜欢的事情原创 2012-03-30 00:13:38 · 575 阅读 · 0 评论 -
2012-4-3日总结
好几天没有写总结了哈~之前一直困扰我的fingerdiff算法,在上周五3月30日下午初步完成代码框架,然后31日和4月1日调试完善,4月2日完成了文档总结,代码修正。这是俺第一次写重复数据删除的软件,同时也是第一次结合ACM中论文的技术,实现的一个可调式的可测试的工程代码,喜悦的心情不言而喻。总之付出总是有收获的,静下心来思考问题,以及解决问题,等后面看看,真的觉得原来这么容易啊,可是在不知道怎原创 2012-04-03 00:20:33 · 797 阅读 · 5 评论 -
2012-3-16日总结
自己本身就不太喜欢写东西,以前自己定目标要每天写日记,可是就是坚持不下来。这段时间有了csdn的博客自己也就零零散散的写点东西,反正总的感觉就是写的不精,只能自己作为练手和记录学习过程的纪念,不过感觉也是蛮好的。想想这段时间的学习过程,自己觉得每天学的东西多,但是没有梳理,没有总结。总是不断的学习新的东西,没有花一定时间对已学过的知识的总结,这就造成了一种猴子搬包谷的现象,搬的包谷多,自己也很累,原创 2012-03-17 00:28:52 · 624 阅读 · 0 评论 -
2012-4-3日总结(夜间)
今天总是不在状态,老想放松,上午本来打算研究一下算法的,可是就是静不下来,没办法啊,最后只能听了2个小时的英文歌,这个倒是很认真,把歌词写下来,并背着呢,感觉还是蛮惬意的哈,不过想唱感觉有难度,下午就在那里想完成我的Flex前台界面,可是自己实现起来的界面实在太难看了,而且功能做得不是很完善,我觉得如果要成为一个合格的项目,那么界面和用户交互很重要,虽然得到的结果可能令人不是很满意,但是只要用户能原创 2012-04-03 23:50:17 · 487 阅读 · 0 评论 -
2012-5-12日学习总结
上午主要学习面向对象编程 1 面向对象的基本概念--对象,类,继承 2 一个空类默认产出哪些成员函数--构造函数,析构函数,拷贝构造函数,赋值函数 3 struct 和class有哪些区别----struct 和class基本相同,只是struct默认所有成员为public而class成语默认为private 4 静态成员变原创 2012-05-23 23:48:56 · 614 阅读 · 0 评论