自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

shy19890510的博客

数据分析师小白

  • 博客(14)
  • 收藏
  • 关注

原创 sublime的一些用法(MAC/Windows)

一、 sublime介绍1.1 安装/卸载packagepackage install/removectrl+shift+p----输入install,选择install packages---选择package contrl: 常用的package:Alignment,Trailing Spaces, Side Bar, BracketHighlighter,xdebug ctrl...

2018-08-13 12:22:24 1657 1

原创 带你搞明白单侧双侧T检验

双侧T检验零假设H0: μ=0,对立假设Ha: μ≠0(p value可以通俗的理解为同时满足tscore和对立假设的概率,所以越小越支持原假设) 如果t score=1.96,此时p value就是两个白色面积的和,等于0.05如果t score=−1.96,此时p value也是两个白色面积的和,等于0.05单侧T检验零假设H0:μ=0,对立假设Ha:μ>0如...

2018-09-30 16:59:14 60306 4

转载 带你搞懂朴素贝叶斯分类算法

带你搞懂朴素贝叶斯分类算法带你搞懂朴素贝叶斯分类算贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。这篇文章我尽可能用直白的话语总结一下我们学...

2018-09-14 14:18:43 573

转载 初次安装git需要配置

转自:https://www.cnblogs.com/superGG1990/p/6844952.html初次安装git需要配置用户名和邮箱,否则git会提示:please tell me who you are.你需要运行命令来配置你的用户名和邮箱:$ git config --global user.name "superGG1990"$ git config --glo...

2018-08-03 14:51:11 4144

原创 正则表达式

在编写处理字符串的程序或网页时,经常有查找符合某些复杂规则的字符串的需要。正则表达式就是用于描述这些规则的工具。换句话说,正则表达式就是记录文本规则的代码。 常用元字符 . 匹配除换行符以外的任意字符 \w 匹配字母或数字或下划线 \s 匹配任意的空白符 ...

2018-07-18 17:24:42 216

原创 Python Error 整理

正在学习python, 联系过程中遇到好多坑,总结一下送给大家: ----------持续更新中Error: OSError: Initializing from file failed原因:文件名中带有中文修改前:res = pd.read_csv('我的文件.csv')修改后:f = open('我的文件.csv') res = pd.read_csv(f)Error: ...

2018-06-13 15:20:16 206

原创 SQL一些逻辑(面试中遇到的小测试)

持续更新中-----1. 假设TABLE有两列数据(ID, NUM), 筛选出NUM连续三次相同的记录ID NUM112232425161... 有两种情况,1. ID是连续的,如同上表  2. ID不连续,可以新建一个列程序如下:--**ID是连续的SELECT a.ID, a.NUM, b.ID, b.NUM, c.ID, c.NUMFROM TABLE a, TABLE b,...

2018-04-11 17:18:18 658

转载 聚类算法 -- 层次聚类

转自: http://bluewhale.cc/2016-04-19/hierarchical-clustering.html简介: 层次聚类(Hierarchical Clustering)是聚类算法的一种,通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中,不同类别的原始数据点是树的最低层,树的顶层是一个聚类的根节点。创建聚类树有自下而上合并和自上而下分裂两种方法,本篇文...

2018-03-29 14:32:34 1294

原创 因子分析 Factor Analysis

因子分析是将多个实测变量转换为少数几个不相关的综合指标的多元统计方法,它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。假想变量是不可观测的潜在变量,称为因子。作用:1. 降维2. 当样本数<特征数时,无法用梯度下降法和多元高斯分布进行拟合,可以利用因子分析降维从而完成任务数据处理:因子分析前,需要对数据进行归一化处理定义:满足以下几个条件...

2018-03-19 16:59:10 989

原创 决策树 Decision Tree

决策树是一个有监督的分类算法,在每次分裂中都找到最容易区分一个集合和另一个集合的特征。在寻找最优特征时,DT算法保证了局部最优,但整体上看不一定是全局最优。一、目标 target因为决策树是一个有监督的算法,所以样本已经有一个变量用来表征这个样本的target,可能是正例/反例,也可以是多个类别(比如高/中/低)二、模型输入 model input在实际应用中,无论是离散特征还是连续特征,其实都可...

2018-03-12 13:56:21 909

原创 逻辑回归模型详解 LR

逻辑回归模型是一个非常非常非常常用的模型,在介绍LR之前,先介绍下广义线性模型1. 广义线性模型机器学习中常用于分类的“广义线性模型”,即对y进行变换使其为输入的线性叠加,注意g必须是单调可微的2. 逻辑回归模型 Logistic Regression应用场景:模型输入是连续变量,模型输出是类别(这里是正例或者反例)目标函数:利用了sigmoid函数将线性函数的结果转换到(0,1)之间,输出可以理...

2018-03-11 13:15:38 1534

原创 分类模型的评价指标--混淆矩阵,ROC,AUC,KS,Lift,Gain

对于分类模型,常用的指标有混淆矩阵、ROC曲线,AUC值,KS曲线以及KS值、Lift图,Gain图等,查阅了很多的资料,加入自己的理解整理了一下他们的计算方法和意义,希望对大家有帮助。1. 混淆矩阵---确定截断点后,评价学习器性能假设训练之初以及预测后,一个样本是正例还是反例是已经确定的,这个时候,样本应该有两个类别值,一个是真实的0/1,一个是预测的0/1 ...

2018-03-09 19:27:06 45477 6

原创 PCA算法以及Python,R实现

1. PCA(Principal Component Analysis)算法流程设有m条n维数据,其中每条数据有n个特征。1)转置----将原始数据按列组成n行m列矩阵X2)中心化----将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值3)求出协方差矩阵M4)求出协方差矩阵M的特征值及对应的特征向量5)将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P6)Y=PX...

2018-03-01 13:13:11 1027

原创 回归模型的几个评价指标

对于回归模型效果的判断指标经过了几个过程,从SSE到R-square再到Ajusted R-square, 是一个完善的过程:SSE(误差平方和):The sum of squares due to errorR-square(决定系数):Coefficient of determinationAdjusted R-square:Degree-of-freedom adjusted coeffic...

2018-02-26 14:29:12 75905 5

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除