自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(69)
  • 收藏
  • 关注

原创 最简洁最没有废话的python入门教程

斗鱼直播间 584723555670668 QQ群 python入门教程视频下载地址博客地址入门python 变量 视频地址python 运算符 视频地址python 语句 视频地址python list、tuple、dict、set 视频地址python 函数初窥 视频地址python 类 视频地址python 模块 视频地址常用字符串处理 视频地址文件读

2016-07-16 23:23:22 3732

原创 Openstack遇到的BUG和坑

1、改了nova源代码,然后发现会卡在scheduling和spwaning,但是从后面拿不到错误日志!最终发现是改的代码有语法错误。。。尼玛。。。

2015-11-11 16:26:25 1270

原创 LR逻辑回归Logistic Regression

背景在工作中,需要过滤掉很多色情和赌博类的item,我mentor刚开始说用多分类的分类器,结果被浪浪鄙视了。后来用了LR,效果还不错。之前不知道LR,写个博客mark一下吧。LR逻辑回归 Logistic Regression背景中提到的色情和赌博类的item,其实拆开来看是典型的二分类问题,一个item进来后,先看是不是色情类的,再看是不是赌博类的,每一次分类其实就是一个二分类问题

2015-01-11 22:47:00 755

原创 参数线性回归和梯度下降

本文大量摘自Rachel-Zhang的CSDN博客,侵联删。背景作为一枚本科木有接触过机器学习而第一份工作就是机器学习相关的本科渣渣。目前硬着头皮边学边用一些机器学习相关的基础内容,写到博客里mark一下,会大量摘抄各位神犇的博客,如有侵权,请联系我,我会及时删除。单参数线性回归参数线性回归是给出一系列点假设拟合直线为h(x)=theta0+theta1*x, 记Cost Func

2014-12-21 22:20:30 771

原创 ROC和AUC简介

背景由于工作原因,遇到了许多二分类的问题,例如,通过一些算法进行模型训练,我们能得到某个用户u对新闻i的评分预测值v(通常介于0和1之间),v大于某个预测阈值就 给 用户推荐,否则就不推荐,这是典型的二分类问题,那么我如何评价这个模型呢?我怎么知道这个模型预估的好不好呢?经过mentor介绍,了解到ROC和AUC,下面详细介绍这两个衡量方法。ROC受试者工作特征曲线 (receiv

2014-12-17 23:06:47 1676

原创 Hadoop Mapreduce从零开始

渣渣程序员一枚,初学hadoop,将各位大神的博客整理一下,加上一点自己的小demo。欢迎拍砖

2014-07-16 18:40:08 1178

原创 Nginx从零开始

Nginx从零开始转至元数据结尾转至元数据起始Nginx学习前置条件linux入门http://www.92csz.com/study/linux/  看到前九章就够用了,之后的章节后续再边学边看。了解http协议摘自http://blog.csdn.net/hguisu/article/det

2014-07-09 09:01:28 1044

原创 rabbitMQ入门详解,大神勿喷。。。自己总结的

rabbitMQ说明文档rabbitMQ是什么消息队列(MQ)使用过程rabbitMQ的优点(适用范围)rabbitMQ单个节点部署文档Ubuntu(12.04)安装rabbitMQ(python使用rabbitMQ服务)安装相关组件自动安装rabbitmq脚本rabbitMQ的管理(rabbitMQ常用命令文档中会详细说明

2014-03-14 17:43:47 14307 6

原创 openstack升级镜像

升级镜像我们经常会遇到某个系统有了漏洞,或者需要打补丁,需要对镜像进行升级,我们可以先建一个虚拟机,然后进行相应的打补丁后,备份这个主机,在openstack后台更改这个备份的属性,将这个备份视为一个新的镜像。创建虚拟机,进行升级创建该虚拟机的备份centos系统需要/etc/sysconfig/network-scrips/ifcfg-eth0 去除HWADDR一行 、rm -rf /etc

2015-12-21 14:12:54 1754

原创 对nova进行api扩展

openstack框架可以很容易地扩展api,可以自定义一些api。本文以nova-api为例,进行api扩展。 nova的扩展都放在nova/api/openstack/compute/contrib/ 目录下,比如我们扩展一个注入文件的api。 nova/api/openstack/compute/contrib/inject_file.pyimport webobfrom webob i

2015-11-22 15:36:45 1708

原创 openstack通过qemu-guest-agent在物理机上操作虚拟机

简介qga是一个运行在虚拟机内部的普通应用程序(可执行文件名称默认为qemu-ga,服务名称默认为qemu-guest-agent),其目的是实现一种宿主机和虚拟机进行交互的方式,这种方式不依赖于网络,而是依赖于virtio-serial(默认首选方式)或者isa-serial,而QEMU则提供了串口设备的模拟及数据交换的通道,最终呈现出来的是一个串口设备(虚拟机内部)和一个unix sock

2015-11-18 10:12:22 5856

原创 openstack从零开始(2)——基础知识openstack中消息通信

AMQPopenstack选用AMQP协议,使得组件之间可以在低耦合的情况下通讯,通常选用rabbitmq作为消息中间件。以nova为例nova内部的组件都是用RPC的方式互相调用的,而openstack中的RPC是基于AMQP之上完成的。有两种模式:pc.call(发送request并等待接收response)、rpc.cast(只发送请求,不care之后发生了什么)。我们可以定义两种角色:消息发

2015-10-15 10:33:39 1676

原创 openstack从零开始(3)——nova

简介nova负责创建、管理云计算系统,是IaaS的核心部分。nova与openstack中的identity、image service、dashboard等组件交互。各个组件API compute-api:接收、响应用户调用api的请求,强制执行某些policy、完成大部分初始化流程,例如启动一个云主机compute-api-metadata:从实例接收metadata请求Compute

2015-10-13 21:01:02 819

原创 python getattr setattr

getattr用来获取某个类中的变量或函数 setattr则可以动态修改、增加某个类的变量或函数 代码一目了然Python 2.7.10 (default, Sep 14 2015, 02:26:06) [GCC 4.2.1 Compatible Apple LLVM 6.1.0 (clang-602.0.53)] on darwinType "help", "copyright", "cr

2015-10-09 15:34:26 710

原创 openstack从零开始(1)——基础知识WSGI

wsgiWeb Server Gateway Interface,更像是一种协议。是python应用程序和web服务器之间的一个桥梁定义接口符合wsgi标准的函数或callable的实体类,需要接收两个参数:environ,包含所有http请求信息的dict对象。start_response,发送http响应的函数。举个栗子:def application(environ, start_res

2015-10-08 21:00:46 1916

原创 rabbitMQ入门详解

rabbitMQ说明文档rabbitMQ是什么RabbitMQ是由 LShift提供的一个 Advanced Message Queuing Protocol (AMQP)的开源实现,由以高性能、健壮以及可伸缩性出名的 Erlang写成(因此也是继承了这些优点)。首先介绍AMQP和一些基本概念:当前各种应用大量使用异步消息模型,并随之产生众多消息中间件产品及协议,标准的不一致使应用与中间件之间的耦合

2015-09-20 23:15:54 984

原创 openstack从零开始(0)——概述

openstack从零开始(1)overviewopenstack是开源的、支持所有云环境的云计算框架。openstack旨在简洁实现大规模性、可伸缩性、以及其他多种feature。来自世界各地的云计算专家共同开发openstack。 openstack通过多种相辅相成的service来提供IaaS解决方案,每种service都提供了api,方便整合成IaaS Service Projec

2015-09-20 20:57:32 1578

原创 C++ template

背景在解析protobuffer时,要先把字符串unescape,然后去掉首尾空格,再用proto的接口去解析,把这一系列操作封装成一个函数。之前,不同的proto我封装成了不同的函数,很多都是可以复用的操作,所以用template函数模板举个栗子:#include #include void PrintNumber(const int& num) {

2015-08-10 19:33:35 488

原创 python eval函数 动态执行python语句

背景在写python脚本的时候,需要根据不同的命令来执行不同的函数,刚开始的时候是通过sys.argv来传递需要执行的函数和相关参数,很土的用if判断,每多一个函数就要多加几行执行逻辑,就搜索了一下python动态执行的方法,找到了eval这个函数。def add(a, b): return a + badd(1, 2)#返回3如果想动态调用add函数,可以这么写:eval('add(1, 2

2015-08-05 16:01:17 6936

原创 C++ explicit 关键字

背景看组里前辈们的server代码,经常用到了explicit关键字修饰构造函数,总结一下。作用如果c++类的构造函数有一个参数,那么在编译的时候就会有一个缺省的转换操作:将该构造函数对应数据类型的数据转换为该类对象,如下面所示:

2015-08-04 21:49:38 396

原创 python 获取url的host

import urllib protocol, s1 = urllib.splittype('http://www.freedom.com:8001/img/people') # ('http', '//www.freedom.com:8001/img/people') host, s2= urllib.splithost(s1) # ('www.freedo

2015-06-15 10:59:27 11651

原创 linux tar压缩和解压

tar -zcvf xxx.tar.gz /xxx 把xxx文件夹压缩到xxx.tar.gz

2015-06-03 19:41:34 470

原创 hadoop调优相关

-jobconf mapred.reduce.slowstart.completed.maps=0.99 map完成99%才开始reduce阶段,避免reduce空等。

2015-04-20 19:47:09 398

原创 K-means聚类算法

K-means聚类算法背景照例每周一个机器学习的经典算法,聚类是机器学习中一种重要的算法,特别是在推荐中,用户喜欢某一类item,我们常常需要把这些item给聚类到一起。一个类中的item肯定是有相似特征的,比如上一回朴素贝叶斯分类器中,我们把小明喜欢的妹子给看成一大类,那么从历史数据中可以看出来,小明喜欢胸大的妹子,胸大就是这些妹子的共同特征。相似item那么现在问题来了,如何才能算是相似的ite

2015-03-15 22:44:01 589

原创 朴素贝叶斯分类器

朴素贝叶斯分类器背景算是机器学习比较经典的算法中之一了,刚开始接触机器学习的时候就有耳闻,当时看了看,看不懂,现在回过头来渐入佳境,写个博客mark一下。贝叶斯定理 贝叶斯定理由英国数学家贝叶斯 ( Thomas Bayes 1702-1763 ) 发展,用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A)。 按照乘法法则:P(A∩B)=P(A)

2015-03-07 09:27:30 854 2

原创 python输出重定向到stderr

sys.stderr.write('xxxxx')这样就把信息输出到stderr了

2015-03-04 14:58:28 2633

原创 linux删除大文件的前n行

linux删除大文件的前n行在数据挖掘中我们经常会增量更新训练日志,需要删除前n行的过期数据,直接用sed命令比较慢,谷歌了一下,发现有个奇技淫巧: tail -n +3 old_file > new_file mv new_file old_file 这样就删除了前2行,速度要比sed命令快

2015-03-02 20:11:56 21903

原创 一个jar包里有多个main,指定运行某一个main

如果一个jar中含有多个主程序,而你没有配置默认主程序,或者想要运行指定主程序,则可以通过如下命令执行:java -cp example03-1.0-SNAPSHOT.jar com.alan.HelloWorld-cp example03-1.0-SNAPSHOT.jar   jar包com.alan.HelloWorld  指定的主程序类

2014-12-15 14:49:46 17401 1

原创 nginx设置静态文件

背景在CUGBACM OJ2.0项目中,由于一直是测试开发环境,用的是django自带的服务器来处理静态文件,上了nginx服务器之后,需要配置上静态文件路径。如下:location ~/site_media/{ root /home/cugbacm/oj/oj/; index index.html index.htm; }

2014-12-10 22:32:32 544

原创 mahout从零开始

背景由于工作原因,有幸接触并使用了mahout,mahout是一个apache开源的项目,直译为驯象人,实际上是一个数据挖掘的框架,可以和hadoop,spark,storm等结合使用,用于处理大数据。mahout比较吸引人的地方是,有很多数据挖掘需要的算法,mahout已经写成包,如果没有特殊需求,不懂java的人也可以直接拿来使用,例如协同过滤、聚类算法等。

2014-12-10 22:28:21 401

原创 C++编程注意事项

使用指针的时候要先判断是否为NULL,注意bian

2014-09-10 17:45:13 547

转载 google proto buffer

mark

2014-09-03 08:05:33 1416

转载 python import相对路径

包含相对路径import 的python脚本不能直接运行,只能作为module被引用。原因正如手册中描述的,所谓相对路径其实就是相对于当前module的路径,但如果直接执行脚本,这个module的name就是“__main__”, 而不是module原来的name, 这样相对路径也就不是原来的相对路径了,导入就会失败,出现错误“ValueError: Attempted relative impo

2014-08-28 08:07:49 5283 1

原创 C++ unordered_map

unordered_map,可以看做是一个哈希映射,

2014-07-22 20:13:59 964

原创 NLP一些基本概念初识

TF*IDF在一份给定的文件里,词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。)逆向文件频率 (inverse document frequency, IDF) 是一个词语普遍重要性的度量。某一特定词语的IDF,可以

2014-07-18 15:53:13 2066

原创 linux awk详解

AWK是一种优良的文本处理工具,Linux及Unix环境中现有的功能最强大的数据处理引擎之一。这种编程及数据操作语言(其名称得自于它的创始人阿尔佛雷德·艾侯、彼得·温伯格和布莱恩·柯林汉姓氏的首个字母)的最大功能取决于一个人所拥有的知识。AWK提供了极其强大的功能:可以进行正则表达式的匹配,样式装入、流控制、数学运算符、进程控制语句甚至于内置的变量和函数。它具备了一个完整的语言所应具有的几乎所有精

2014-07-17 16:30:05 525

原创 linux screen

系统管理员经常需要SSH 或者telent 远程登录到Linux 服务器,经常运行一些需要很长时间才能完成的任务,比如系统备份、ftp 传输等等。通常情况下我们都是为每一个这样的任务开一个远程终端窗口,因为它们执行的时间太长了。必须等待它们执行完毕,在此期间不能关掉窗口或者断开连接,否则这个任务就会被杀掉,一切半途而废了。screen

2014-07-16 17:36:37 593

原创 多服务器文件自动同步inotify+rsync

文件同步转至元数据结尾Created by zekun.zhu on 五月 29, 2014转至元数据起始文件同步方案前提免密钥登陆线上服务器A为本地主机(即用于控制其他主机的机器) ;B为远程主机(即被控制的机器Server), 假如ip为172.24.253.2 ;A和B的系统都是L

2014-07-08 14:14:45 1175

原创 lua学习文档

lua学习文档lua安装curl -R -O http://www.lua.org/ftp/lua-5.2.3.tar.gztar zxf lua-5.2.3.tar.gzcd lua-5.2.3make linux testsudo apt-get install lua5.2lua简介Lua 是一门扩展型程序设计语言,用于辅助一般的过程式编程。当

2014-06-25 13:16:12 764

转载 linux sed命令

linux之sed用法 转自http://www.cnblogs.com/dong008259/archive/2011/12/07/2279897.htmlsed是一个很好的文件处理工具,本身是一个管道命令,主要是以行为单位进行处理,可以将数据行进行替换、删除、新增、选取等特定工作,下面先了解一下sed的用法sed命令行格式为:         sed [-nef

2014-06-19 17:19:22 431

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除