- 博客(13)
- 资源 (6)
- 收藏
- 关注
原创 文本相似度-bm25算法原理及实现
文本相似度-bm25算法原理及实现文章目录文本相似度-bm25算法原理及实现原理原理BM25算法:用途:搜索相关性分数的计算;算法描述:对Query进行语素解析,生成语素qiq_iqi;然后,对于每个搜索结果D,计算每个语素qiq_iqi与D的相关性得分,最后,将qi相对于D的相关性得分进行加权求和,从而得到Query与D的相关性得分。BM25算法的一般性公式如下:...
2019-01-30 16:08:46 540
原创 大数据面试题
大数据面试题目文章目录给你A,B两个文件,各存放50亿条URL,每条URL占用64字节,内存限制是4G,让你找出A,B文件共同的URL。有10个文件,每个文件1G, 每个文件的每一行都存放的是用户的query,每个文件的query都可能重复。要你按照query的频度排序有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16个字节,内存限制大小是1M。返回频数最高的10...
2019-01-30 14:54:37 302
原创 历史上悬疑未解的题目答案大揭秘
历史上有不少精彩的智力题,其中有一些一直悬而未解,多少人纵然冥思苦想,也无法求解。于是有人开始求教生肖迷宫工作室。其实我也没经过深思熟虑,我的答案也不见得一定对,大家可以共同探讨。色盲问题假设:有一个人,他有一种奇怪的色盲症。他看到的两种颜色和别人不一样,他把蓝色看成绿色,把绿色看成蓝色。 但是他自己并不知道他跟别人不一样,别人看到的天空是蓝色的,他看到的是绿色的,但是他和别人的叫法都一样...
2019-01-30 14:43:13 1511
原创 变态而有趣的微软面试题及答案
变态而有趣的微软面试题及答案变态而有趣的微软面试题及答案文章目录变态而有趣的微软面试题及答案第一组第二组第三组第四组第五组第六组答案最近和一些朋友讨论面试题比较多,呵呵,这里收藏一个比较经典的面试题目。有点搞笑,但也比较锻炼脑子。第一组烧一根不均匀的绳,从头烧到尾总共需要1个小时。现在有若干条材质相同的绳子,问如何用烧绳的方法来计时一个小时十五分钟呢?你有一桶果冻,其中有黄...
2019-01-30 14:33:56 3339
原创 epoll例子
#include <stdio.h> #include <unistd.h> #include <stdlib.h> #include <string.h> #include <sys/types.h> #include <errno.h> #include <sys/socket.h>
2019-01-29 17:19:39 1916
原创 无锁编程基础
目录文章目录目录背景锁的分类死锁、活锁饥饿、饿死(starvation):优先级反转(Priority inversion)护航现象(Lock Convoys)自旋锁无锁为什么要无锁?(界定问题)如何无锁?(界定问题)CAS等原子操作无锁队列的链表实现ABA问题解决ABA的问题用数组实现无锁队列小结背景我们处在技术快速发展的时代,竞争变得前所未有的激烈,不仅要十八般武艺俱全,还得选对正确的...
2019-01-29 17:16:46 2672
原创 gdb使用技巧
gdb调试技巧gdb调试技巧文章目录gdb调试技巧多线程调试源文件显示条件断点设置变量x命令多线程调试在工程中,经常需要写多线程的程序,如果这些多线程的程序出现了问题,需要gdb的时候,我们需要用哪些命令呢?info thread 查看当前进程的线程信息,显示ID;thread ID 切换调试的线程为指定ID的线程;break test.cpp:55 thread all 在te...
2019-01-29 16:53:04 332
原创 linux下C/C++ 头文件以及库文件的搜索路径
linux下C/C++ 头文件以及库文件的搜索路径文章目录linux下C/C++ 头文件以及库文件的搜索路径基础知识gcc搜索头文件顺序linux 库文件的搜索顺序基础知识使用 #include&lt;&gt; :直接到系统指定的某些目录中去找某些头文件。使用 #include"":先到源文件所在文件夹去找,然后再到系统指定的某些目录中去找某些头文件。使用 -I 参数指定的头文件路径仅...
2019-01-28 11:58:27 1800
原创 LruCache的代码实现,以及分析
LruCache的代码实现以及分析文章目录LruCache的代码实现以及分析简介原理源代码优化点总结简介作为存储数据、获取数据的服务,LruCache被大量的广泛使用。例如,我们在redis、mongodb种存储海量的数据,应用服务通过api通过网络进行存取,但是由于二八原则,我们大多数情况下,获取的都是相同的一批数据,所以这个时候可以在服务内存创建LruCache将数据进行缓存。原理...
2019-01-28 10:43:35 637
原创 c/c++笔试题(包含语言、数据结构与算法、智力题)
static有什么用途?(请至少说明两种)1.限制变量的作用域2.设置变量的存储域(1)函数体内static变量的作用范围为该函数体,不同于auto变量,该变量的内存只被分配一次,因此其值在下次调用时仍维持上次的值;(2)在模块内的static全局变量可以被模块内所用函数访问,但不能被模块外其它函数访问;(3)在类中的static成员变量属于整个类所拥有,对类的所有对象只有一份拷贝;...
2019-01-26 22:10:57 1639
原创 使用objdump分析core堆栈
使用objdump分析core堆栈文章目录使用objdump分析core堆栈普通程序的core分析使用c++编程的同学,经常会遇到诸如内存越界、重复释放等内存问题,大家比较习惯的追查这类问题的方式是,打开core文件的limit,生成core文件,用gdb进行分析;但是,在实际的生产环境中。由于程序本省占用内存非常大,比如搜索的索引服务,进行core的dump不太现实,所以一般采用,在程序...
2019-01-25 22:13:12 3131
原创 Explicit Constructors(显式构造函数,不允许隐式转换)
隐式转换按照默认规定,只有一个参数的构造函数也定义了一个隐式转换,将该构造函数对应数据类型的数据转换为该类对象,如下面所示:class String { String (const char* p ); // 用C风格的字符串p作为初始化值 //…}String s1 = “hello”; //OK 隐式转换,等价于String s1 = String(“hello”); 但是有的...
2019-01-23 21:59:02 584
转载 LevelDB的sstable解读
LevelDB分析文章目录1. 分析点1.1 静态分析点1.2 动态分析点2. leveldb中的SSTable2.1 引言2.2 SSTable的layout2.2 Data Block2.2.1 技术点2.2.2 技术简介2.2.3 Data block的物理结构2.2.4 Data block的记录的格式2.3 Index Block2.3.1 技术点2.3.2 技术简介2.3.3 ind...
2019-01-04 09:40:51 1741
程序员的自我修炼
2017-09-06
hadoop实战
2016-05-11
mongodb权威指南
2015-02-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人