- 博客(21)
- 资源 (9)
- 收藏
- 关注
原创 centos redis-clutster测试
主要参考 cluster-tutorial查看端口占用 netstat -tunlp 创建集群路径以及端口 拷贝原有的【redis.conf】,并更改以下配置 cluster-enabled yes cluster-config-file nodes.conf cluster-node-timeout 5000 appendonly yes daemonize yes ...
2018-02-27 13:22:44 210
原创 ssh互信
ssh的作用有很多应用需要打通ssh互信,我这里主要是为了调度mpich。 ssh的原理可以参见 [ 阮一峰 SSH互信的原理与应用] 在实际打通的过程中也遇到了一些问题。我这里将相关的问题整理如下,以供后续参考。 假设链接的机器是MA,MB。 我们先按照配置MA访问MB的形式进行配置。MB访问MA的配置也相同。机器互连 (MA+MB都要操作)修改 /etc/h
2018-01-24 18:15:30 413
原创 广告拍卖机制与点击率预估概述(二)
《广告拍卖机制与点击率预估概述(一)》中,我们介绍了点击率预估在广告系统中的重要性,这里我们对点击率预计与建模中主要使用到的架构、数据、与算法进行介绍。系统架构 公欲善其事,并先利其器。 点击率预估可以说是大数据应用的典型案例。广告系统中有着大量日志,例如腾讯广点通有百亿的曝光。他们的点击、曝光就是天然的正、负样本数据。点击率预估涉及到大量日志信息的
2016-01-28 15:53:30 1470
原创 广告拍卖机制与点击率预估概述
提起大数据与机器学习,绕不开的就是“点击率预估”问题,这是由于广告的日志信息天然具有大量有标记信息。在这里,基于以往的工作,我对点击率预估的背景与技术背景进行概述。更进一步的文章留待后续更新。 在开始之前,这里也对广告业界常用的名词例如CTR、策略、算法进行说明。 名词定义: CTR(Click-Through-Rate):点击率 Bid:广告主
2015-12-07 23:29:27 2881
原创 文章标题
hadoop 开发笔记采用toolrun解析conf形式: http://blog.csdn.net/jediael_lu/article/details/38751885 运行代码: -Dname=value 获取:getconf
2015-12-03 20:17:00 390
原创 c++的测试框架
最近开始写coder master的代码,整理了一些c++的信息。 虽然以前也写过一段时间 C++,但是写的时间非常少,主要是用来写一些算法 ,更主要在windows下面用vc进行的干活 ,后面又用c#,java,python等高级语言 。在 linux下进行 c++的编码经验较少,所以多总结下 。 Makefile: C++ 的makefile的编写 ,其实没有必要 ,了解makef
2013-08-14 19:51:21 1076
原创 内存对齐
来百度之后,接触c++逐渐多了起来,好多计算机组成原理的知识也给回顾起来了。C/C++无疑还是系统编程的首选,当然,相对的代价也更复杂,今天又碰到了一次内存对齐的问题。觉得挺有意思的,所以打算把它给总结一下。在这里做一个标记。有空的时候把内容给补齐。
2013-08-12 00:52:03 473
原创 install openmpi on ubuntu
reference to http://auriza.site40.net/notes/mpi/openmpi-on-ubuntu-904/这个就是最好的了,没有之一。当然如果需要安装在其他的目录,或者说需要在其他的机器上安装,需要额外的注意两个问题:1.安装之前制定configurate --prefix=yourPath2.在加载的路径中,修改两个参数:echo "e
2013-03-27 02:51:10 911
原创 python调用so库
我厂大部分的code都是采用C++写的,有的时候需要进行一些数据分析,又需要用c++里面的很多函数,例如url的转换函数,hash编码的函数,着实不甚方便,这个时候把常用的c++的函数,封装为SO库让python调度就非常有必要的了。 当然,如果从性能的考虑,你也可以balabal了。 那么这里就简单描述一下在python中怎么使用so库吧。 python中使用so库的方法很多,
2013-03-27 00:51:30 18734 4
原创 unix 系统备忘
不到百度,不知道自己unix有多差,这里做一些备忘,把遇到的一些问题与方案记录下来:1.指定动态编译库的查找路径: 一般系统查找动态链接库都是在/lib和/usr/lib中查找,/lib和/usr/lib目录中查找。 我们可以在 /etc/ld.so.conf 中增加新的lib的路径,然后执行/sbin/ldconfig完成配置
2013-03-27 00:36:05 574
转载 hadoop-streaming几个常用的错误编码。
换了个工作,这边还是用streaming,不过不知道平台的原因,或者其他各种错误层出不穷。这里做一个记录。经常遇到的exception是:PipeMapRed.waitOutputThreads(): subprocess failed with code N"OS error code 1: Operation not permitted""OS error code
2012-11-22 14:29:42 5385 2
原创 我的编程生活-20120320
今天晚上七点早早的回到了家里,先睡了一个小时的觉,然后感觉精神稍微清醒了点。 这几天一直在看heritrix源码,不熟悉东西一大堆。不仅仅是因为不喜欢用别人的代码,而是想更多的了解一些东西,而不是做多了就像运维一样。于是在上面耗费了一周左右的时间,也只是大致理清了框架,知道哪里可以被优化,哪里可以进行修改。革命尚未成功,同志必须努力。 数据有了之后,需要提取部分给LDA,这部
2012-03-20 23:39:18 374
原创 并行计算-原文转载于链接
由于工作上会常常需要使用到并行计算,这个文章将逐渐的对所有的相关的资料数据进行整理。1.链接: http://www.programmer.com.cn/8606/ 简单的介绍了业界常用的几个流式计算系统
2012-01-30 10:28:12 344
原创 空间中比较多的人转载的海量数据处理相关的文章
一:常见的题目:1. 给你A,B两个文件,各存放50亿条URL,每条URL占用64字节,内存限制是4G,让你找出A,B文件共同的URL。2. 有10个文件,每个文件1G, 每个文件的每一行都存放的是用户的query,每个文件的query都可能重复。要你按照query的频度排序3. 有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16个字节,内存限制大小是1M。返回频数最高的100个词4
2010-04-02 14:48:00 1056
原创 c++ operator定义为friend function
因为自己写一个小程序的时候弄了个问题,对于一些operator定义成成员函数则是不可以,而定义成friend则是可以,有些不理解,看到redsnow写的一篇文章有些启发,原文链接是http://blog.chinaunix.net/u/24250/showart_182419.html,原文如下。 对于class中将ope
2009-12-30 19:33:00 7253 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人