- 博客(9)
- 资源 (1)
- 收藏
- 关注
转载 图的遍历
图的遍历有两种遍历方式:深度优先遍历(depth-first search)和广度优先遍历(breadth-first search)。
2015-07-29 17:14:38 533
原创 使用simhash算法对网页去重
如果搜索文档有很多重复的文本,比如一些文档是转载的其他的文档,只是布局不同,那么就需要把重复的文档去掉,一方面节省存储空间,一方面节省搜索时间,当然搜索质量也会提高。 simhash是google用来处理海量文本去重的算法。
2015-07-19 20:52:44 4479
原创 使用向量空间模型(df-idf)计算搜索文档与查询词的相关性
如果要实现一个搜索引擎,当搜索到与用户查询相关的文档后,需要按照搜索文档与查询词相关性的先后顺序显示文章标题与概要,所以需要一种办法计算用户查询和搜索文档的相关性,然后按照相关性由高到低进行排序。
2015-07-19 01:44:39 7673 2
原创 muduo网络编程分包和解包(二)
1. muduo发送结构体的方法如果发送端仅仅发送一段字符串,可以使用《muduo网络编程分包和解包(一)》介绍的长度+字符串的格式发送数据,但是如果想发送一个结构体或对象,需要对对象进行序列化把它转变成字节序才能发送给接收端,而不能直接把结构体或对象本身发送给接收端,原因见《jsoncpp学习》。 muduo使用protobuf进行序列化。由于protobuf打包的数据没有自带长度和类型信息,需
2015-07-10 23:45:32 2366
原创 linux下获得线程tid的方法
(1)如何获取进程的pid呢?可以使用getpid(2)但如何获取线程的tid呢?可以使用gettid,man gettid后讲明: gettid返回调用线程的thread ID(TID).在单线程进程下,thread ID等于process ID(即getpid返回的pid)。 但多线程进程下,所有线程有相同的pid,但是每个线程具有有唯一的tid。(3)那gettid返回
2015-07-08 19:47:12 5263
原创 muduo网络编程分包和解包(一)
non-blocking网络编程中,在Tcp这种字节流协议上做应用层分包是网络编程的基本需求。(muduo p194) 什么叫分包? 分包指的是在发送一个消息或一帧数据时,通过一定的处理,让接收方能从字节流中识别并截取(还原)出一个个消息。 为什么需要打包和分包? 因为tcp一次发送的数据可能不足一个完整的消息,或者包含多个消息。tcp一次发送数据的大小与内核中发送缓冲区的大小有关,如果当前
2015-07-08 14:21:40 2383
原创 windows消息与消息循环
msdn中关于消息循环的解释: https://msdn.microsoft.com/en-us/library/windows/desktop/ms644927(v=vs.85).aspx关于此篇文章的翻译: http://blog.163.com/zhangjie_0303/blog/static/990827062010113062446767/
2015-07-07 14:33:16 632
ACE程序员指南-网络与系统编程的实用设计模式
2016-08-03
ACE程序员指南-中篇
2016-08-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人