pennyliang-CSDN博客

原创今天给大家推荐搜狗一个开源项目

今天给大家推荐搜狗一个开源项目GitHub - sogou/workflow: C++ Parallel Computing and Asynchronous Networking Engine这个其实是一个赋能C++/C后端工程师的高科技产品，以后我们就不需要自己造轮子就可以享受到大厂一样牛逼稳定的后端服务。我们今天就从三个部分来展开，一、安装和入门二、做一个web服务三、测评一、安装和入门预备安装一些必要的包yum install git cmake cmake3 open

2022-04-27 21:43:01 2211 2

原创识别渣男大测试

大家好，即上次识别富人题目之后，结合今天的男研究生求复合招据，捅死女友的新闻，很是感慨。决定命制一套识别渣男题目，供广大女生朋友能够早期识别渣男。首先定义下渣男，我的定义就是心智不成熟，很难有什么作为，也难扛起家庭的责任，对家庭关系缺乏理解，过度考虑自己感受，比较极端，未来的相处比较困难的这一类人。当然万一如果不幸是这一类人也不要紧，要积极改变，努力战斗，改掉内心深处的bug。...

2019-04-26 17:15:13 11783

原创运营汇编2 两个文件如何去重

假定文件Axxxyyyzzz假定文件Byyyzzzkkk如何去重得到文件Cxxxyyyzzzkkk推荐解法： cat A B | sort | uniq 如何得到他们的交集D ? yyy zzz方法1： sort A > A.sort

2016-09-29 13:37:48 4300 2

原创【运营汇编1】如何确保数据传到远程服务器上

#!/bin/bash7za a log.7z log #将文件log压缩成log.7z7za t log.7z #检验文件log.7z是否可解压。rsync -avP log.7z root@192.168.1.1:/data/ #将log.7z传送到192.168.1.1 服务器上。整个

2016-09-29 13:18:17 3792

原创内网机器做数据备份机，外网主机直接rsync的实现

今天在美团云主机购买了一台1TB的内网主机，用作日志备份，不含公网IP。这样能便宜一点。内网IP为：10.128.134.X（主机A）另有一台日志主机，有外网IP，但硬盘较小，IP为：104.238.131.Y（主机B）第一步：在主机A上执行：ssh -NfR 10000:localhost:22 root@104.238.131.Y 并输入主机B的root密码

2015-04-07 14:58:35 8990

原创 crontab中执行其他账号运行的程序免密码

我有一个crontab但是执行的脚本中包含这么一句，如下：/usr/bin/sudo -u pennyliang bash -c ' echo xxx '这时这个echo xxx总是执行不了，后来发现是因为root的 crontab的脚本如果切换到其他账号是需要账号密码的，找到一个文章，解决了这个问题，并记录下来 http://blog.csdn.net/wangxia

2015-01-29 09:47:43 6617

原创 linode的网卡丢失问题解决了（终极解法）

这次的惊魂让我提高很多，先说提高，再说故事经过。文章可能有点乱，大家包涵。1）linode还有一种可以ssh上去的方式第一步 ssh pennyliang@lish-tokyo.linode.com 然后在提示中输入密码（其中pennyliang是linode的用户名，lish-tokyo.linode.com表示东京机房）其他几个机房依次是： lish-tokyo.li

2014-12-26 11:47:22 6493

原创 mmap ENOMEM（errno 12）错误

今天触发了一个大坑，发现mmap在映射大量文件的时候，会失败，返回ENOMEM错误。找了一圈，有的说是swap不够，增加了swap也没用，可见不是这个问题。后来看了美军一个文章（http://www.enchantedage.com/node/235），加一个配置即可：echo 1000000 > /proc/sys/vm/max_map_count

2014-12-02 14:58:40 15267

原创 PRank的学习和理解

PRank是一个pointwise的监督学习排序的方法，一般被用作baseline。我看了下论文,然后动手写了个小实验，进行了理解。其基本需求是：对于每个对象，会有不同角度的打分，现在需要一种方法融合这些打分来给他们一个排序。例如，给体操打分，会有不同的项目，空中姿态分，落地分，技术难度分等等，单向打分一般比较容易，规则是死的，落地没站住就扣0.2。。但是这

2013-12-15 13:35:29 9648 1

原创一类监督学习问题

假定我们有一组object n个O1,O2,...On，每个Object有m个特征，f1,f2,...fm 。我们已知的数据如下1）我们知道每个object的特征取值例如 f1(Obj1) = 0.5 f2(Obj1) = 0.2 ... fm(Obj1) = 0.12）我们知道每个Object的两两比较结果，Pij表示objecti > objectj 或者说前者好于

2013-12-10 15:38:30 5433

原创文件夹超过1万个压缩文件时，Argument list too long问题的解决

最开始的命令如下ls *.tar.gz | xargs -n1 tar xzvf系统报错：Argument list too long原因是ls* 不能list这么多的文件。改为 find ./ -type f -name '*.tar.gz' -exec zcat {} \;就可以了。zcat后面空格{}，再空格\，再加一个分号

2013-04-05 17:11:15 9926 1

原创 LDA实现的两种方法

今天看到美帝一个实现LDA的法子，实现了一把，结果也对，参加方法2。可以对比方法1，计算量是降低了很多。但无论如何，有一个显著的开销是很大的，这就是每个Wm,n 都需要记录一个类标签，也就是代码中doc那个三维矩阵，x表示文档编号{0-15}，y表示term编号{0-4}，z表示label{0-1} 假定文档有10M个（一千万），每篇文章1000个词，词典空间10K个，

2013-03-31 21:36:16 14780

原创浅谈gibbs sampling（LDA实验）

先把问题描述一下：如果我们已知了topic内的每个词的词频，比如下图中topic1 中money 2 次，loan 3次...那么任意给一个文档我们可以对里面每一个词算一个产生这个词的概率即 P(w=wi|t=tj)如下图，doc1 中的money 百分之百的来自于topic1 。doc2 中的词用topic1 无法全部解释，必须借助topic2 。但现在问题是，如果我们只有一堆文档，

2013-03-22 10:39:35 26450

原创浅析Likehood MAP MLE

举个例子说明Likehood MAP MLE假定有犯罪团伙A和犯罪团伙B。假定我们的概念有h{h1: 所抓得人是团伙A的h2: 所抓得人是团伙B的....}如果我们抓到了一票人是a1,a2,...an，那么这伙人是团伙A还是团伙B？即求解P( h|D={a1,a2,...an} )？假定从案底显示，团伙A有10个人，团伙B有20个人，团伙A被抓到的概

2013-03-20 10:50:49 6221

原创关于编译器的一个问题

今天看了下@leekayak 提到的一个问题 http://weibo.com/1465082730/znOSZzU4v 我试图用一个简单的例子来解释下，首先看一段更简单的代码。 #include "stdio.h"#include "stdlib.h"#include int f = 0;int x= 0;void* t1(void*){

2013-03-17 13:32:14 5592

原创 firefox 17.0 编包记（fedora 17）

前不久某神秘老板，找我聊天，说他们有个大计划，最后苦恼在做一个浏览器上，我说如果你们需求不复杂，编译个开源的，不就完了，他表示他们的研发队伍还没有建立，so，需要一个做demo的炮灰。找一些外包吧，价钱也贵，看我执行力这么好，so，让我来执行~~~。我在江湖上的炮灰形象太高大了吧，我断然拒绝了他，但我想我确实也没编译过浏览器，自己编一个玩玩，没想到这事档了我1天时间，我把整个过

2013-02-02 13:39:01 6601

原创 ssh-keygen+ssh-copy-id 在linux下实现ssh无密码登录访问

ssh到163机器上，需要密码，这样对一些脚本工作不方便，因为需要密码，也就是需要人工干预。此前用的方法是拷贝authorized_keys里面（记不清了，以前搞过），最近发现一个命令ssh-copy-id很方便，try了一下，果然好用，记录下来：在192.168.42.142机器上1)运行：ssh-keygen -t rsa2)然后拍两下回车（均选择默认）3)运行： ss

2013-01-30 16:13:54 13291

原创 tar.gz 文件坏了，崩溃了，有恢复办法的

1)首先需要安装 gzrt 例如; yum list | grep gzrt yum install gzrt.x86_64 2)运行cpio 看是否安装了，如果没装也要装，最新版本的linux一般都安装了，比如我的就安装了3）按照下面的例子做恢复$ ls *.gzmy-corrupted-backup.tar.gz$ gzrecover

2013-01-17 16:31:45 12200

原创硬盘空间不够用了，怎么办，还有更绝的

今天，发现硬盘空间不够了，怎么办。1）首先这个分区是LVM的，因此看看是否前人还给留了空间输入lvm，进入lvm的提示符2）输入pvscan，天啦，前人还给留了1.78TB啊，是不是真的？ lvm> pvscan PV /dev/sdg1 VG VolGroup lvm2 [1.82 TiB / 1.78 TiB free] 3）lv

2013-01-17 10:48:55 7621

原创今天try了下folly的small lock 很好

#include #include #include #include #include #include namespace detail { class Sleeper { static const uint32_t kMaxActiveSpin = 4000; uint32_t spinCount; public: Sleepe

2012-12-11 11:11:57 5711

原创昨天，我发布了微博寻人二代系统-微博寻人链

昨晚在新浪博客发了个博文，分享了些开发思考：http://blog.sina.com.cn/s/blog_593af2a701017jxn.html 这里就技术性问题，做一个分享，谈谈开发过程中最困难的问题。微博寻人链，简单来说，就是你有一个话题，你想知道，什么人是讨论这个话题，最积极的人。你如“小米”，这个概念，谁是最爱讨论的人。就解决这个问题。

2012-09-16 10:33:43 6958

原创 linux编程的108种奇淫巧计-7(Lock-free实验)

发现csdn把我一篇博客搞丢了，好在从百度快照（http://cache.baidu.com/c?m=9d78d513d99d1cfe01fa950e1a16a1711824d4236b80c7150e96c414cf2f051a143ab6af60624e0b89833a2516ae3a41f7a0682f621420c0ca89de16cabbe57478ce3a762740da0a4c884

2012-09-04 09:14:13 5799

原创 To 百思不录团队：百思不录产品设计思路

对于百思不录产品设计，我的一个想法。设计前需要考虑这样几个问题1）让求职者主动提交信息，这个是有难度的，短期不现实2）让老板们主动提交信息，这个我能把握，可以找到一票老板们，经理们发布信息，他们有欲求我建议的产品需要包含这样一些要素1）搜索就挂一个搜索框，搜索新浪微博的码农。类似目前的 http://xunren.thuir.org 。微博挖掘组需要解决任意输入一个公司

2012-08-29 22:13:01 3796

原创索引1200万人的微博寻人系统

今天又做了一个比较大的变化，索引人数由此前的500万人，提高到1280万人。速度依然很快。微博寻人从4月24日上线以来经历了如下几个变化 4月24日微博寻人系统首次上线上线首日PV过1万 6月29日上线标签预测展示 7月01日上线闺蜜搜索流量翻10倍 7月06日和扫库大军和攻击对手作战取得胜利，网页一次搜索从100ms，降低到10ms ，P

2012-07-21 19:59:37 5692

原创用汇编解释虚函数调用

做程序设计助教，刚刚有个同学来实验室找我。问了个问题，“为什么指向基类指针能指向派生类，而且能调用派生类的函数”。我按我的理解，简单解释下指向基类的指针，“能看见”的部分是这个基类定义的，包括函数和变量。如果该指针指向了它的派生类，它依然“能看见”的部分还是基类定义的，包括函数和变量。但是如果函数是虚函数，那么C++编译器会把这个调用，借

2012-06-09 16:07:18 9122

原创程序设计上机题2

# include // cin , cout# include // stringusing namespace std;class Fans{ public: virtual void say_jiayou()=0; virtual char* country()=0;};class Spanish :

2012-05-08 11:08:17 2019

原创程序设计上机作业题1

原题/// Mid - Exam @ 20120421 14:00 -17:00# include // cout , endl# include // strlen , strcpyusing namespace std;class bug{ char * data_ ; public : bug( const

2012-05-08 10:44:40 2133

原创我推出了微博寻人在线系统

在我博士第二年的时候，我推出了第二个系统，微博寻人。这个系统基于500万新浪微博用户的数据，采用我之前写的THUIRDB做数据库，排序主要使用了用户之间的关注关系。目前收集到了接近2万PV的日志，内涵丰富，主要由程序员的寻人需求构成，参考链接有一些参考内容，也很有趣。未来还将通过我组织的微博爬萌，构筑数据来源的可靠基础。并希望借助这个在线系统吸引更多的人投入到这个

2012-04-28 20:19:24 4974 1

原创关于@淘宝日照问题的代码

@淘宝日照提出了一个问题问题：memset 1G的内存一次与memset 8个字节内存1G/8次哪个操作更快？我的测试代码如下：#include #include "stdlib.h"#include "string.h"using namespace std;static __inline__ unsigned long long rdtsc(voi

2012-04-11 22:05:12 3169

原创 [声明]关于技术咨询的声明

[声明] 最近找我咨询各种技术，系统的创业公司太多了，不堪忍受，特发布一下申明：我不是搜索引擎的专家，也不是搜索引擎届名流，更不是大忽悠，也米有资源。我是一个脱产读博的穷博士，如果一定要找我聊天，每小时500元人民币，1小时起价。非工作时间交流。

2012-03-16 15:44:06 2407

原创 apache配置压缩模块和效果检测

检查 httpd.conf中是否有这么一段 LoadModule deflate_module modules/mod_deflate.so我自己的机器，已经自动装好，因此忽略。在 /etc/httpd/conf/httpd.conf 文件最后增加这么一段# Insert filterSetOutputFilter DEFLATE# Netscape 4.x

2012-03-12 17:05:55 1659

原创今天各种坑库连不上，apache装起来外面访问不了，fsockopen 权限不够

今天各种坑安装ACE运行不了，库link不上原来要 /sbin/ldconfig –v 一下参考http://www.cnblogs.com/amboyna/archive/2008/02/06/1065322.htmlapache装起来外面访问不了原来是防火墙问题vi /etc/sysconfig/iptables加入一条-A R

2012-03-11 15:23:35 5637

原创 utf-8编码sort出现问题的解决

今天遇到一个怪事，记录下来。一个文本有很多中文单词。例如文本为 xxsort xx 不能把相同的中文排在一起，有些是对的，有些是错的。例如：XXXXXX90后XXXXXX90后XXX90后XXX排序后，应该得到XXX90后90后90后XXX但结果可能是XXX90后XXX90后

2012-03-06 18:57:38 2609

原创 Machine Learning cs299 problem 3 Regulation C++ code

看了两天Regulation，MAP，结合实验，总算搞懂了，代码如下，学到这里的同学，可以参考。简单来说，就是通过将theta看做是一个随机变量，但这个变量不应该很大，否则容易过拟合，需要在一定程度上减弱，所以通过这种方式来选择参数(feature selection)。暂且写这么多，lamda设置为0.1时，和书中答案接近，可以看出lamda越小，过拟合越严重，lamda越大，越粗放，过拟合越不

2012-02-15 18:22:55 3169 1

转载 List of Algorithms

原文转自：http://www.scriptol.com/programming/list-algorithms.phpList of AlgorithmsA complete list of all major algorithms (300), in any domain. The goal is to provide a ready to run program for each

2012-02-13 09:39:22 6007

原创 Andrew NG Machine Learning 2.2 Least square revisited浅解

最小二乘法解方程往往适用于方程的个数大约未知量的个数，往往无精确解的情况。也就是说，因为用高斯消去法无法求解不相容方程，但确可以用最小二乘法求近似解。假定我们有这样一个应用我们想知道70后，80后，90后，对电影演技和剧本的评价。首先让一个人对一部影片的演技评分x1，对一个剧本评分x2，然后评一个总体分y。我们假定β1是演技的权重，β2是剧本的权重，并假设y=β1*x1+β

2012-01-19 11:22:27 3664 1

转载《中国古代战略理论精要》读书笔记

富之而观其无犯，贵之而观其无骄，付之而观其无转，使之而观其无隐，危之而观其无恐，事之而观其无穷。富之而不犯者仁也，贵之而不骄者义也，付之而不转者忠也，使之而不隐者信也，危之而不恐者勇也，事之而不穷者谋也。 --

2012-01-17 23:29:20 1631

翻译 K-Means 聚类 sample

假定我们有如下9个点A1(2, 10) A2(2, 5) A3(8, 4) A4(5, 8) A5(7, 5) A6(6, 4) A7(1, 2) A8(4, 9)希望分成3个聚类初始化选择 A1(2, 10), A4(5, 8) ，A7(1, 2)为聚类中心点，两点距离定义为ρ(a, b) = |x2 – x1| + |y2 – y1| . 第一步Itera

2012-01-17 16:58:33 2933

转载 MAP和MLE的一个sample

转自：http://www.cnblogs.com/ysjxw/archive/2008/04/23/1167707.html有趣且浅显易懂的举例刚刚在找MAP的资料，无意中找到有人写的一个有趣的文章，拿减肥当例子真的是浅显易懂 XD 如果拿 Artificial Intelligence: A Modern Approach (ISBN-10: 0137903952, IS

2012-01-16 21:43:23 1565

转载 Google Caffeine 大规模实时增量索引

Our new search index: Caffeine6/08/2010 05:00:00 PM (Cross-posted on the Webmaster Central Blog)Today, we're announcing the completion of a new web indexing system called Caffeine. Caffein

2012-01-10 15:37:39 3136

Topology-Calculation-Tuning本学期一份组内报告

微软企业文化内训资料

空空如也