![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
随笔记录
iteye_773
这个作者很懒,什么都没留下…
展开
-
倒排索引和正排索引的优化点
搜索系统中对于索引和字典的存储主要面临两大挑战: 1.数据压缩 2.快速地检索和排序 正排表的存储有如下两个点来压缩数据: 1.正排表词在在DOC中出现的为止采用单调递增差分存储,这样存储这个数字序列的时候可以用尽可能少的字节数来存,达到压缩效果 2.在存储文档中所有WORD ID的时候在最后一个词后面插入一个NULL,并且采用非结构化方式存储可以减少很多冗余的DOCID...原创 2016-04-12 10:59:42 · 403 阅读 · 0 评论 -
网络吞吐量的估算
在写数据传输程序的时候我们会关心服务器和客户端之间通信的网络延迟有多大?数据收发的吞吐量最大有多少? tcp socket 客户端和服务端之间的通信延迟受到很多因素影响,基本没办法准确的估算出来,比如传输距离,网络路由跳数,交换机处理时间,网卡处理延迟,cpu处理延迟,丢包率等。其中的传输距离影响比较大,虽然电信号以光速传播,其延迟也不能随便忽略,比如10公里的距离光传播的延迟就有33...原创 2016-05-02 22:28:55 · 1133 阅读 · 0 评论