自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(114)
  • 收藏
  • 关注

转载 jupyter(ipython notebook) 安装和入门教程

近期大家无论是自己做数据分析还是紧急答辩做PPT,可能都需要画一些数据的展示图;以前大家都是用excel画图,但excel画图存在一定的局限性,比如你要画个累积直方图,excel就很麻烦了,所以给大家介绍一个基于python的交互数据分析工具,ipython notebook。本文会给大家介绍从零开始安装和使用notebook的入门教程,写的不详细...

2018-03-03 19:26:00 353

转载 回归模型效果评估系列4-从协方差到相关系数

相关表和相关图可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间相关的程度。相关系数是用以反映变量之间相关关系密切程度的统计指标。 从协方差出发,了解相关系数的真实含义和数学计算。期望值分别为E[X]与E[Y]的两个实随机变量X与Y之间的协方差Cov(X,Y)定义为:从直观上来看,协方差表示的是两个变量总体误差的期望。如果两...

2018-03-02 16:32:00 633

转载 回归模型效果评估系列3-R平方

决定系数(coefficient of determination,R2)是反映模型拟合优度的重要的统计量,为回归平方和与总平方和之比。R2取值在0到1之间,且无单位,其数值大小反映了回归贡献的相对程度,即在因变量Y的总变异中回归关系所能解释的百分比。 R2是最常用于评价回归模型优劣程度的指标,R2越大(接近于1),所拟合的回归方程越优。假设一数据集包括y1...

2018-03-02 14:26:00 5350

转载 回归模型效果评估系列2-MAE、MSE、RMSE、MAPE(MAPD)

MAE、MSE、RMSE、MAPE(MAPD)这些都是常见的回归预测评估指标,重温下它们的定义和区别以及优缺点吧MAE(Mean Absolute Error) 平均绝对误差 是基础的评估方法,后面的方法一般以此为参考对比优劣。MSE(...

2018-03-01 16:57:00 5635

转载 回归模型效果评估系列1-QQ图

(erbqi)导语QQ图全称 Quantile-Quantile图,也就是分位数-分位数图,简单理解就是把两个分布相同分位数的值,构成点(x,y)绘图;如果两个分布很接近,那个点(x,y)会分布在y=x直线附近;反之则不;可以通过QQ图从整体评估回归模型的预测效果QQ图一般有两种,正态QQ图和普通QQ图,区别在于正态QQ图中其中有一个分布是正态分布,下面来看下这两种分...

2018-03-01 11:45:00 1800

转载 Python print 输出到控制台 丢数据

import xlrdimport sys,timedata = xlrd.open_workbook("C:\Users\Administrator\Desktop\\new1.xlsx")table = data.sheets()[0]cols = table.ncolsrows = table.nrowsfor i in range(c...

2017-04-10 15:15:00 339

转载 社招面试总结

老公司架构调整,调整后的工作内容和自己的职业规划不符,就离开了。碰巧有同学在腾讯,叫他帮忙内推去面试了一下,第一次只面完了四面,在总经理面前表现不是很好,四面没有通过,不过整个流程下来,觉得腾讯的社招面试还真的挺有含量的,去面试了,不过也没有通过,对自己的前一阶段的工作都是很好的总结和提升的机会。我觉得面试流程跟面试的岗位还是有挺大的相关性,不过我觉得研发的岗位应该都是大同小异,下面...

2017-03-19 18:19:00 244

转载 探索推荐引擎内部的秘密,第 3 部分: 深入推荐引擎相关算法 - 聚类

转自:http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy3/index.html智能推荐大都基于海量数据的计算和处理,然而我们发现在海量数据上高效的运行协同过滤算法以及其他推荐策略这样高复杂的算法是有很大的挑战的,在面对解决这个问题的过程中,大家提出了很多减少计算量的方法,而聚类无疑是其中最优的选择之一。 ...

2017-01-17 16:04:00 89

转载 探索推荐引擎内部的秘密,第 2 部分: 深入推荐引擎相关算法 - 协同过滤

转自:http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy2/index.html本系列的第一篇为读者概要介绍了推荐引擎,下面几篇文章将深入介绍推荐引擎的相关算法,并帮助读者高效的实现这些算法。 在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法。它以其方法模型简单,数据依赖性低,数...

2017-01-17 15:56:00 118

转载 探索推荐引擎内部的秘密,第 1 部分: 推荐引擎初探

转自:http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy1/index.html探索推荐引擎内部的秘密,第 1 部分: 推荐引擎初探随着 Web 技术的发展,使得内容的创建和分享变得越来越容易。每天都有大量的图片、博客、视频发布到网上。信息的极度爆炸使得人们找到他们需要的信息将变得越来越...

2017-01-17 15:15:00 134

转载 mac ERROR 2002 (HY000): Can't connect to local MySQL server through socket '/tmp/mysql.sock' (2)

好久不用mysql,今天突然想用的时候,mysql -uroot -p直接报了下面的错误ERROR 2002 (HY000): Can't connect to local MySQL server through socket '/tmp/mysql.sock' (2)mac可以在设置里面启动mysql,设置里面启动mysql的时候提示没有/usr/local/mysq...

2016-10-27 11:07:00 134

转载 cart中回归树的原理和实现

前面说了那么多,一直围绕着分类问题讨论,下面我们开始学习回归树吧,cart生成有两个关键点如何评价最优二分结果什么时候停止和如何确定叶子节点的值cart分类树采用gini系数来对二分结果进行评价,叶子节点的值使用多数表决,那么回归树呢?我们直接看之前的一个数据集(天气与是否出去玩,是否出去玩改成出去玩的时间)sunny hot high ...

2016-10-24 17:53:00 333

转载 用cart(分类回归树)作为弱分类器实现adaboost

在之前的决策树到集成学习里我们说了决策树和集成学习的基本概念(用了adaboost昨晚集成学习的例子),其后我们分别学习了决策树分类原理和adaboost原理和实现,上两篇我们学习了cart(决策分类树),决策分类树也是决策树的一种,也是很强大的分类器,但是cart的深度太深,我们可以指定cart的深度使得cart变成强一点的弱分类器。在决策树到集成学习我们提到,单棵复杂的决策树...

2016-10-23 22:02:00 646

转载 连续值的CART(分类回归树)原理和实现

上一篇我们学习和实现了CART(分类回归树),不过主要是针对离散值的分类实现,下面我们来看下连续值的cart分类树如何实现思考连续值和离散值的不同之处:二分子树的时候不同:离散值需要求出最优的两个组合,连续值需要找到一个合适的分割点把特征切分为前后两块这里不考虑特征的减少问题切分数据的不同:根据大于和小于等于切分数据集def splitDataSet(dataSe...

2016-10-20 16:15:00 685

转载 CART(分类回归树)原理和实现

前面我们了解了决策树和adaboost的决策树墩的原理和实现,在adaboost我们看到,用简单的决策树墩的效果也很不错,但是对于更多特征的样本来说,可能需要很多数量的决策树墩或许我们可以考虑使用更加高级的弱分类器,下面我们看下CART(Classification And Regression Tree)的原理和实现吧CART也是决策树的一种,不过是满二叉树,CART可以是强分...

2016-10-19 22:19:00 540

转载 adaboost原理和实现

上两篇说了决策树到集成学习的大概,这节我们通过adaboost来具体了解一下集成学习的简单做法。集成学习有bagging和boosting两种不同的思路,bagging的代表是随机森林,boosting比较基础的adaboost,高级一点有GBDT,在这里我也说下我理解的这两个做法的核心区别:随机森林的bagging是采用有放回抽样得到n个训练集,每个训练集都会有重复的样本,每个...

2016-10-17 23:08:00 147

转载 训练模型和衡量模型的好坏

如果你看了前面几篇博客,我们说了决策树,说了adaboost,这次我们说下模型训练和衡量模型的好坏其实我们已经训练了模型了,例如决策树的生成时模型训练,adaboost的实现也是模型训练的过程,所以我们已经训练了好几个模型,只是那个具体的模型,并且我们没有把模型保存下来可能觉得自己不是在训练模型。模型训练的输出是模型,什么是模型呢?我们生成的决策树是模型,adaboost...

2016-10-17 21:02:00 1076

转载 决策树分类原理

上一篇博客我们看了一个决策树分类的例子,但是我们没有深入决策树分类的内部原理。这节我们讨论的决策树分类的所有特征的特征值都是离散的,明白了离散特征值如何分类的原理,连续值的也不难理解。决策树分类的核心在于确定那一个特征的那一个特征值分类最有效,可能不同的场景,每个人采用的衡量方法也不一样,这里我们采用香农熵。下面我们看一下简单的例子五个样例,两个特征(是否浮上水面,是否有...

2016-10-17 15:53:00 180

转载 决策树到集成学习

还是用上一篇文章的例子来阐述从单纯的决策树到集成学习的过程数据集还是100个数据点,分布如下(x,y坐标只保留一位小数)决策树简单的决策树的结果可能是这样的,这是一棵很可能极度过拟合的决策树。决策树生成的逻辑大概是这样的:遍历每个特征的每个特征值,计算最优的特征以及特征值来分割训练集,显然,我们的特征只有x,y坐标两个特征,但是每个特征的特征值太多了,导致这个决策...

2016-10-10 12:58:00 146

转载 机器学习基本概念和模型训练基本问题

什么是分类问题,什么是回归问题?以及两者的区别什么是二叉树?二叉树很容易理解,在这里我们一般用满二叉树:就是非叶子节点都有2个分支的树形数据结构什么是决策树?决策树最初是用来做决策用的,就好像下面的见不见相亲对象的决策过程一样;如果把最后的决策结果看成是分类,那么决策树就可以用来分类了,例如,下面的例子就是把相亲对象分为见和不见两种。假如下面是你是否见相亲...

2016-10-09 11:38:00 264

转载 自动训练(决策树)模型

项目上要求给出一个可配置的类自动化的流程,下面根据自己的思考给出自动训练模型的部分。决策树模型关键参数有两个:树深度和树棵数(模型训练中称为迭代次数,下称迭代次数)树深度树的深度如何决定,个人觉得:每棵树最好都能用到所有的特征,所以树深度跟特征数相关,对特征个数对2求对数,然后上取整即可# 通过特征个数计算决策树深度# 计算逻辑:把所有的特征都放到决策树的叶子...

2016-10-07 14:32:00 1097

转载 python中烦人的锟斤拷(\xef\xbf\xbd)

首先要知道\xef\xbf\xbd是啥东西>>> u'\uFFFD'.encode('utf-8')'\xef\xbf\xbd'由此我们可以知道\xef\xbf\xbd是utf8编码的'\uFFFD',那么这个'\uFFFD'是啥东西呢?原来是因为Unicode和老编码体系的转化过程中,肯定有一些字,用Unicode是没法表示的,Unicode官...

2016-07-26 13:00:00 927

转载 Leveldb 实现原理

原文地址:http://www.cnblogs.com/haippy/archive/2011/12/04/2276064.htmlLevelDb日知录之一:LevelDb 101  说起LevelDb也许您不清楚,但是如果作为IT工程师,不知道下面两位大神级别的工程师,那您的领导估计会Hold不住了:Jeff Dean和Sanjay Ghemawat。这两位是Googl...

2016-07-04 13:58:00 85

转载 算法杂货铺——分类算法之朴素贝叶斯分类(Naive Bayesian classification)

算法杂货铺——分类算法之朴素贝叶斯分类(Naive Bayesian classification)0、写在前面的话 我个人一直很喜欢算法一类的东西,在我看来算法是人类智慧的精华,其中蕴含着无与伦比的美感。而每次将学过的算法应用到实际中,并解决了实际问题后,那种快感更是我在其它地方体会不到的。 一直想写关于算法的博文,也曾写过零散的两篇,但也...

2016-06-28 14:19:00 85

转载 XGBoost参数

XGBoost参数转自http://blog.csdn.net/zc02051126/article/details/46711047在运行XGboost之前,必须设置三种类型成熟:general parameters,booster parameters和task parameters:General parameters:参数控制在提升(boosting)过程中使用哪...

2016-06-23 15:59:00 70

转载 python的多线程、多进程代码示例

python多进程和多线程的区别:python的多线程不是真正意义上的多线程,由于python编译器的问题,导致python的多线程存在一个PIL锁,使得python的多线程的CPU利用率比预期的要低很多python的多进程(java的应该也是)有内存拷贝的问题,所以建议用java或者c的多线程。多线程有两种方式:thread和threading这里应用的场景是map数据分...

2016-06-07 20:26:00 84

转载 svd

SVD(Singular Value Decomposition),中文是奇异值分解,最近很感兴趣,下面谈谈我对svd的理解,没有线性代数基础的可以直接看应用部分或者记住关键结论就好了。理论部分:线性变化奇异值分解不是一个凭空幻想出来的概念,而是解决一个数学问题的成果,这个数学问题可以概括成:对于∀矩阵A,是否∃一组正交基,在经过A变换之后还是正交的?在研究一般矩阵之前,...

2016-05-26 17:25:00 175

转载 hive-group by的时候把两个字段变成map

源表结构:pcgid string mobilegid string value double 测试数据如下:p1 m1 0.6p1 m2 0.9p2 m...

2016-05-23 19:41:00 1094

转载 mac date 和 Linux date实现从指定时间开始循环

Linux datebegin="2016-01-01"for (( i = 0; i < 21; i++ )); do current=$(date -d "$i day $begin" +"%Y-%m-%d") echo $currentdonemac datebegin="2016-01-01"begin=`date -j...

2016-05-22 23:22:00 102

转载 安装ubuntu-server16.0,设置WiFi

想装个server版的Linux系统玩玩,下面记录一下遇到的坑。1:安装语言选英文:可能是因为其他原因,我选中文的时候安装失败了,最后一次选中文的时候成功了。2:以前装了一个ubuntu的,后面想着直接覆盖ubuntu的分区就可以了吧,但是事实证明很悲剧,建议由这个覆盖想法的小伙伴先把之前的ubuntu分区都删了,只留一个可用的大分区就好,双系统没关系,Linux的分区比较散,W...

2016-05-17 16:32:00 132

转载 安装Hadoop2.7和hive2.0以及redis

安装过程很简单,主要记录期间碰到的问题:安装过程:下载安装包:hadoop:http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gzhive:http://mirror.bit.edu.cn/apache/hive/hive-2.0.0/apache-hive-2.0....

2016-05-17 16:04:00 191

转载 算法入门系列2:k近邻算法

用官方的话来说,所谓K近邻算法(k-Nearest Neighbor,KNN),即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是上面所说的K个邻居),这K个实例的多数属于某个类,就把该输入实例分类到这个类中。这是一个有监督的学习算法例如下图,红色和蓝色代表已知的训练好的的数据,这个时候来一个示例,也就是图中的绿色圆块,这个绿色圆块属于哪一...

2016-04-27 17:43:00 104

转载 算法入门系列1:k-means

k-means是一种无监督学习算法,用于聚类。下图(来自http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006910.html)展示了k-means算法k=2时的聚类过程。第一步:给定k个中心点,然后依次遍历所有数据点,计算每个数据点到k个中心点的距离,距离最短的就归为该中心点第二步:利用在第一步的结果重新计算中心点...

2016-04-27 17:35:00 70

转载 回归和分类

在数据分析或者数据挖掘的时候,经常碰到回归和分类的问题,下面详细说下我对我这两概念的理解。回归一直对为什么叫回归很好奇,百度百科对回归的定义如下:回归,指研究一组随机变量(Y1 ,Y2 ,…,Yi)和另一组(X1,X2,…,Xk)变量之间关系的统计分析方法,又称多重回归分析。通常Y1,Y2,…,Yi是因变量,X1、X2,…,Xk是自变量。一直想不懂为什么叫回归,查了一下,...

2016-04-25 16:27:00 157

转载 django-1366, "Incorrect string value: '\\xE6\\x88\\x9A\\xE4\\xBC\\x9F...'

今天把之前的一些代码转移到另外一台电脑的时候,python manage.py syncdb的时候报了(1366, "Incorrect string value: '\\xE6\\x88\\x9A\\xE4\\xBC\\x9F...'的错误,查了一下,应该是数据库编码设置的问题,看了一下本机数据库的默认编码,果然如此mysql> show variabl...

2016-04-17 12:08:00 303

转载 mac date命令

usage: date [-jnu] [-d dst] [-r seconds] [-t west] [-v[+|-]val[ymwdHMS]] ... [-f fmt date | [[[mm]dd]HH]MM[[cc]yy][.ss]] [+format]参数解析:-j:使用-j才能使用-f-n:默认情况下,如果定时进程正在运行,dat...

2016-04-15 18:05:00 386

转载 jstorm系列-2:入门

有了基本的概念之后,我们用jstorm来做一点小事情吧做一个很无聊的事情:给定一个时间戳,输出对应的问候语规则是:时间戳的十位对应的数字对应不同的时间段,0-2代表早上,3代表中午,4-6代表下午,7-9代表晚上,分别输出早上,中午,下午和晚上。我们用spout来发送时间戳,bolt来处理时间戳并输出对应的问候语,并且统计每一时间段的问候数目,判断时间戳的生成是否随机。代...

2016-01-30 20:18:00 102

转载 jstorm系列-1:入门

一、 Storm整体介绍Storm 是一个类似Hadoop MapReduce的系统, 用户按照指定的接口实现一个任务,然后将这个任务递交给JStorm系统,Jstorm将这个任务跑起来,并且按7 * 24小时运行起来,一旦中间一个Worker 发生意外故障, 调度器立即分配一个新的Worker替换这个失效的Worker。因此,从应用的角度,JStorm ...

2016-01-28 16:52:00 175

转载 git 如何恢复只是提交到本地的文件(或者commit)

今天早上傻逼了,把四天的代码commit到了本地,然后fetch一下,然后就全没了,不过git还是挺强大的参考:http://blog.163.com/jiams_wang/blog/static/3033914920138179326885/git如何恢复本地删除的文件(还没执行 git commit)直接从本地把文件checkout出来就可以了,用不着从远程服务器上p...

2016-01-07 14:02:00 1282

转载 shell 参数

位置参数所谓位置参数 (positional parameter) ,指的是 Shell 脚本的命令行参数 (argument) ;同时也表示在 Shell 函数内的函数参数。它们的名称是以单个的整数来命名。出于历史的原因,当这个整数大于 9 时,就应该以花括号( {} )括起来 :echo first arg is $1echo tenth arg is ${10}...

2015-11-30 15:48:00 113

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除