骚铭科技SM-Tech!

讲述是最好的沉淀!分享是最好的备份!

广告点击率平滑

CTR 平滑在计算广告中,有时存在一些比较稀疏的数据,这时需要对这些数据进行平滑。例如,某个广告,只有三次浏览(Impression),0次点击(Click),那么点击率为0%?如果恰巧有一次点击,点击率为33%?显然这样不合理,这样的点击率预估就很不准确了。因此,我们需要一种可以对点击率平滑的方...

2017-07-04 20:34:17

阅读数 638

评论数 0

推荐系统(基本方法+评估指标+工具)

基本方法 Neighborhood-based item-item Model-based 矩阵分解 针对隐式反馈的矩阵分解方法 评估指标 Error Percentile-rank Hit Radio at NN or HRNN 工具 参考资料基本方法1 Neighborhood-based (...

2017-03-17 15:19:26

阅读数 4553

评论数 0

[cs229] k-means 图像压缩

k-means 算法因为简单易实现,所以有许多应用。其中一个有意思是应用于有损图像压缩。其核心思想是通过聚类将颜色表示数量减少。例如,传统RGB,每个通道0~255(8 bits),则可以表示16777216 (24 bits)种颜色,通过聚类可以减少到16种颜色。下面以此为例,比较一下原始图像与...

2017-03-07 10:30:04

阅读数 1251

评论数 1

[UNIX系统编程] I/O缓冲

使用缓冲的目的当然就是为了提高性能了。在UNIX中,I/O 有两层缓冲: 1. 内核缓冲 2. stdio 库缓冲内核缓冲: 当使用系统调用write的时候,并不是直接写入磁盘,这样性能太挫。而是先写到内核缓冲区,等缓冲区满了,或者调用sync的时候,才写入磁盘。经过实验,我们发现当缓冲...

2016-11-19 15:50:31

阅读数 236

评论数 0

自定义哈希函数

每种数据类型都需要相应的 hash function。在C++中,一些内置类型不需要自定义哈希函数,例如,int,double,string等。但是一些自定义的数据类型就需要自定义哈希函数了。例如,下面定义了直线Line,根据y=kx+by = kx +b,每条直线需要两个变量来定义:kk,bb。...

2016-08-23 09:47:33

阅读数 1125

评论数 0

[ZeroMQ] libzmq 源码阅读 之 Reactor机制(mailbox, event)

[ZeroMQ] libzmq 源码阅读 之 Reactor机制(mailbox, event)ZeroMQ libzmq 源码阅读 之 Reactor机制mailbox event 信号员 signaler 进程间通信 signaler 实现 多路复用器poller 监听 socket mail...

2016-07-20 20:23:28

阅读数 2643

评论数 0

[ZeroMQ] libzmq源码阅读 之 thread_t

libzmq源码阅读 之 thread_t最近阅读了ZeroMQ源码的poll的实现,看到类 thread_t 挺有意思,记录一下。我认为,这个thread_t是对pthead的一层封装,弄成C++的模样。thread.hpp#include <pthread.h>namespace ...

2016-07-18 20:21:53

阅读数 557

评论数 0

Function Table 函数指针表

定义一个函数表类,包含一个 vector 成员 funcList。问题是,如何定义函数指针? 如下所示,f即为函数指针。 vector<void (*)()> funcList;void add(void (*f)() );#include <iostream>#inclu...

2016-06-30 10:57:16

阅读数 522

评论数 0

[MIT 6.824 Distributed System] Google File System

Google File System (GFS) 主题:性能、容错、一致性 什么是一致性(consistency)? 当data是多副本的和并发读写的的时候,保持数据的一致性是非常重要的。 弱一致性:read() 可能返回过期的数据(stale data)——不一定是最新的数据。 强一致...

2016-06-30 08:43:17

阅读数 552

评论数 0

[MIT 6.824 Distributed System] Lab 1: MapReduce (2016)

MIT分布式系统课程实验1:Lab 1: MapReduce以下是我自己实现的版本,与大家分享一下,有问题欢迎提出,也希望各位指出错误!在common.go里面可以打开调试:// Debugging enabled? const debugEnabled = trueOverviewPart I:...

2016-05-23 09:48:10

阅读数 1966

评论数 2

Decision Tree

决策树最近研读了机器学习(周志华)的第四章决策树,在此做点小笔记。基本概念决策树,顾名思义,就是一棵用于做决策的树,其实我觉得就是个分类器。生成一棵决策树的基本思路很简单,用贪婪的方法不断降低分类对象的混乱度,或者说不断提高纯度(purity)。用来度量混乱度或纯度的方法有很多,其中比较经典和简单...

2016-05-18 08:45:46

阅读数 403

评论数 0

[Leetcode] Minimum Height Trees

Minimum Height Trees For a undirected graph with tree characteristics, we can choose any node as the root. The result graph is then a rooted tree. ...

2016-05-13 15:20:32

阅读数 258

评论数 0

inline function

最近看Thinking of C++,对内联函数又有了更深的了解。为什么要用 inline function?我们知道 C++ 由 C 发展而来。在C语言中,为了提高效率,经常使用预编译的方法来定义函数,也就是我们经常看到的宏 #define …。由于是代码替换,避免了函数调用所带来的堆栈操作,从...

2016-05-13 15:19:13

阅读数 310

评论数 0

namespace 的使用

最近在看libzmq的源码,里面大量使用namespace。平时没怎么用过,故写一段测试代码作为笔记。我抽象了一个客厅类 living_room_t,里面有chair_t 和 desk_t。CMakeListscmake_minimum_required(VERSION 3.3) project(...

2016-05-09 09:21:31

阅读数 1836

评论数 0

ZeroMQ 源码阅读

一、创建contextzmq_ctx_new()context 干嘛用的?context 是用于管理全局状态的,例如sockets, io_thread, repear等。下面是zmq内部结构白皮书的解释: To prevent this problem libzmq has no globa...

2016-05-08 14:31:27

阅读数 379

评论数 0

关于家用宽带的几点不满与想法

最近家里4M宽带升级了百兆光纤,感觉电信的垄断生意实在是做得太离谱了。由此萌生了hack它的想法。首先看看深圳宽带的费用: 4M宽带套餐,一年1440¥ 100M光纤套餐,一年1980¥ 如果我将百兆光纤的带宽分给20户(5M/户),那么每户的年费用将大幅降为99¥/年。可见,价差巨大啊!说什么降...

2016-05-08 08:14:12

阅读数 235

评论数 0

[Leecode] Maximum Gap

Maximum Gap题意很清晰,要找出最大的gap,但是是顺序序列最大的gap。由于要求线性时间,很容易想到算法导论中说的线性时间排序算法:Counting Sort, Radix Sort 和 Bucket Sort。题目中还有一个提示,序列中每个元素都是32 bits 的 positive ...

2016-02-02 20:08:54

阅读数 198

评论数 0

[Leetcode] LRU Cache. 哈希表+双向链表之实现

题目首先来看题目,就是实现一个LRU,最近最少使用。 Design and implement a data structure for Least Recently Used (LRU) cache. It should support the following operations: g...

2015-12-12 14:45:11

阅读数 1742

评论数 1

[Cloud Networking Notes] Week4

CDN (Content Distribution Network)为什么要CDN?要为页面加载加速,可以使用static caching的方法。然而静态缓存的方法要面对两个大问题: Volume and diversity of content Dynamic content, encrypte...

2015-12-05 15:11:47

阅读数 479

评论数 0

[Cloud Networking Notes] Management and sharing of network infrastructure in cloud data centers

如题,本周课程主要讲述云数据中心的网络管理,和网络基础设施的共享。Targets and Motivations具体的目标与动机可以参考下面这篇文章: VL2: A Scalable and Flexible Data Center Network我们希望数据中心做到高可伸缩性和高利用率,也就是...

2015-12-01 15:38:22

阅读数 450

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭