frankie110-CSDN博客

原创 centos redis-clutster测试

主要参考 cluster-tutorial查看端口占用 netstat -tunlp 创建集群路径以及端口拷贝原有的【redis.conf】，并更改以下配置 cluster-enabled yes cluster-config-file nodes.conf cluster-node-timeout 5000 appendonly yes daemonize yes ...

2018-02-27 13:22:44 210

原创 ssh互信

ssh的作用有很多应用需要打通ssh互信，我这里主要是为了调度mpich。 ssh的原理可以参见 [ 阮一峰 SSH互信的原理与应用] 在实际打通的过程中也遇到了一些问题。我这里将相关的问题整理如下，以供后续参考。假设链接的机器是MA，MB。我们先按照配置MA访问MB的形式进行配置。MB访问MA的配置也相同。机器互连（MA+MB都要操作）修改 /etc/h

2018-01-24 18:15:30 413

原创广告拍卖机制与点击率预估概述(二)

《广告拍卖机制与点击率预估概述(一)》中，我们介绍了点击率预估在广告系统中的重要性，这里我们对点击率预计与建模中主要使用到的架构、数据、与算法进行介绍。系统架构公欲善其事，并先利其器。点击率预估可以说是大数据应用的典型案例。广告系统中有着大量日志，例如腾讯广点通有百亿的曝光。他们的点击、曝光就是天然的正、负样本数据。点击率预估涉及到大量日志信息的

2016-01-28 15:53:30 1470

原创广告拍卖机制与点击率预估概述

提起大数据与机器学习，绕不开的就是“点击率预估”问题，这是由于广告的日志信息天然具有大量有标记信息。在这里，基于以往的工作，我对点击率预估的背景与技术背景进行概述。更进一步的文章留待后续更新。在开始之前，这里也对广告业界常用的名词例如CTR、策略、算法进行说明。名词定义： CTR(Click-Through-Rate)：点击率 Bid：广告主

2015-12-07 23:29:27 2881

原创文章标题

hadoop 开发笔记采用toolrun解析conf形式： http://blog.csdn.net/jediael_lu/article/details/38751885 运行代码： -Dname=value 获取:getconf

2015-12-03 20:17:00 390

原创 C++ 日志打印与记录

很多时候需要打印一些日志与ji

2014-09-10 15:47:05 2168

转载 [备注] py2exe

嗯，其实这个不应该是博客，而是应该保存在onenote中，但是由于umei

2014-07-31 02:24:24 550

原创 [备注]haoop streaming常用的一些命令

工作了一段时间之后xi

2014-07-29 19:47:46 5765

原创主题模型相关

好久没有写blog，这里我记录一下最近要补充的博客代码，着一两个月会陆续补充上来。这里会补充主题模型相关的liji

2014-06-24 03:19:57 440

原创这里share一下我写的mpi版本的lr算法以及应用场景

好久没有写blog，这里我记录一下最近要补充的bo

2014-06-24 03:18:31 1176

原创【产品】百度广告--动态创意。

一、scala 服用的工具。 http://www.scalanlp.org/

2014-05-25 22:02:43 2123

原创 c++的测试框架

最近开始写coder master的代码，整理了一些c++的信息。虽然以前也写过一段时间 C++，但是写的时间非常少，主要是用来写一些算法，更主要在windows下面用vc进行的干活，后面又用c#，java,python等高级语言。在 linux下进行 c++的编码经验较少，所以多总结下。 Makefile： C++ 的makefile的编写，其实没有必要，了解makef

2013-08-14 19:51:21 1076

原创内存对齐

来百度之后，接触c++逐渐多了起来，好多计算机组成原理的知识也给回顾起来了。C/C++无疑还是系统编程的首选，当然，相对的代价也更复杂，今天又碰到了一次内存对齐的问题。觉得挺有意思的，所以打算把它给总结一下。在这里做一个标记。有空的时候把内容给补齐。

2013-08-12 00:52:03 473

原创 install openmpi on ubuntu

reference to http://auriza.site40.net/notes/mpi/openmpi-on-ubuntu-904/这个就是最好的了，没有之一。当然如果需要安装在其他的目录，或者说需要在其他的机器上安装，需要额外的注意两个问题：1.安装之前制定configurate --prefix=yourPath2.在加载的路径中，修改两个参数:echo "e

2013-03-27 02:51:10 911

原创 python调用so库

我厂大部分的code都是采用C++写的，有的时候需要进行一些数据分析，又需要用c++里面的很多函数，例如url的转换函数，hash编码的函数，着实不甚方便，这个时候把常用的c++的函数，封装为SO库让python调度就非常有必要的了。当然，如果从性能的考虑，你也可以balabal了。那么这里就简单描述一下在python中怎么使用so库吧。 python中使用so库的方法很多，

2013-03-27 00:51:30 18734 4

原创 unix 系统备忘

不到百度，不知道自己unix有多差，这里做一些备忘，把遇到的一些问题与方案记录下来：1.指定动态编译库的查找路径：一般系统查找动态链接库都是在/lib和/usr/lib中查找，/lib和/usr/lib目录中查找。我们可以在 /etc/ld.so.conf 中增加新的lib的路径，然后执行/sbin/ldconfig完成配置

2013-03-27 00:36:05 574

转载 hadoop-streaming几个常用的错误编码。

换了个工作，这边还是用streaming，不过不知道平台的原因，或者其他各种错误层出不穷。这里做一个记录。经常遇到的exception是：PipeMapRed.waitOutputThreads(): subprocess failed with code N"OS error code 1: Operation not permitted""OS error code

2012-11-22 14:29:42 5385 2

原创我的编程生活-20120320

今天晚上七点早早的回到了家里，先睡了一个小时的觉，然后感觉精神稍微清醒了点。这几天一直在看heritrix源码，不熟悉东西一大堆。不仅仅是因为不喜欢用别人的代码，而是想更多的了解一些东西，而不是做多了就像运维一样。于是在上面耗费了一周左右的时间，也只是大致理清了框架，知道哪里可以被优化，哪里可以进行修改。革命尚未成功，同志必须努力。数据有了之后，需要提取部分给LDA，这部

2012-03-20 23:39:18 374

原创并行计算-原文转载于链接

由于工作上会常常需要使用到并行计算，这个文章将逐渐的对所有的相关的资料数据进行整理。1.链接： http://www.programmer.com.cn/8606/ 简单的介绍了业界常用的几个流式计算系统

2012-01-30 10:28:12 344

原创空间中比较多的人转载的海量数据处理相关的文章

一：常见的题目：1. 给你A,B两个文件，各存放50亿条URL，每条URL占用64字节，内存限制是4G，让你找出A,B文件共同的URL。2. 有10个文件，每个文件1G，每个文件的每一行都存放的是用户的query，每个文件的query都可能重复。要你按照query的频度排序3. 有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16个字节，内存限制大小是1M。返回频数最高的100个词4

2010-04-02 14:48:00 1056

原创 c++ operator定义为friend function

因为自己写一个小程序的时候弄了个问题，对于一些operator定义成成员函数则是不可以，而定义成friend则是可以，有些不理解，看到redsnow写的一篇文章有些启发，原文链接是http://blog.chinaunix.net/u/24250/showart_182419.html，原文如下。对于class中将ope

2009-12-30 19:33:00 7253 1