自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大熊的博客

不定时更,记录一下自己在数据科学道路上的学习历程

  • 博客(18)
  • 收藏
  • 关注

原创 广义线性模型(GLM)初级教程

文章目录广义线性模型指数分布族性质连接函数正则连接函数(canonical link function)如何找这样的g?模型详解参数估计极大似然估计Newton-Raphson MethodFisher Scoring MethodIteratively Reweighted Least Squares关于FS和IRLS区间估计模型检验Pearson ResidualsDeviance Resid...

2020-02-24 23:46:36 17237 1

原创 业务数据分析工作心得

目录业务数据分析提升酒店订单量额外提升工作smtp自动邮件分析过程自动化业务数据分析这篇博客用来记录自己在携程任职数据分析师期间涉及的一些业务数据分析知识,分别是碰到不同业务需求时自己的分析思路以及预期结果,业务决策等,希望以此方式来进行归纳总结,提升自己。提升酒店订单量业务需求:挖掘与酒店订单量相关变量,探究不同业务场景酒店订单转化率,并制定相应业务决策。解决思路:获取用户订单数据,...

2019-11-03 14:35:00 2122

原创 降维方法总结(线性与非线性)

文章目录线性映射方法主成分分析(PCA)因子分析流形学习核化线性(KPCA)降维t-SNE多维标度法(MDS)等距离映射(Isomap)局部线性嵌入(LLE)线性映射方法以下方法为基于线性映射处理线性数据的方法。主成分分析(PCA)关于PCA的原理以及实现在PCA主成分分析已经详细叙述,这里不做叙述。因子分析关于因子分析的愿意以及实现在因子分析(Factor Analyse)推导以及R...

2018-11-04 22:15:07 29216 2

原创 排序算法介绍与Python实现

归并排序首先将数组从中间分为两部分,然后再对这两部分分别进行排序,最后再将这两个数组合并,因此利用递归的思想,可以很容易实现归并排序。即将原数组进行不断分割,最后每一部分都是两个数,对其进行排序后,再将这一个个排序后的小数组进行合并,最终可以得到一个有序的数组。Python实现代码如下def merge_sort(L): n = len(L) merge_l = merge...

2018-10-22 23:20:41 295

原创 链表练习题

链表的基本练习题对应的LeetCode题号以及基本解法206链表反转一个指针用于遍历链表,一个指针用于记录反转后的链表def reverseList(head): #链表反转 if not head: return head current = head #当前结点 previous = None #reversed链表 while c...

2018-10-12 21:22:20 697

原创 非负Lasso回归的R语言实现

非负Lasso回归Lasso回归可以对原变量进行稀疏化,而若增加约束条件使得回归系数大于0,则问题成为非负Lasso回归,具体可参加以下论文链接:https://pan.baidu.com/s/1rDeIhHaLBagJyfqHzMrd_w 密码:y2x7下面为R语言实现:A <- read.csv('x.csv')[,2:146] #自变量y <- read.csv('y....

2018-09-20 22:43:45 2247 4

原创 线性方程组数值解法及R语言实现

线性方程组数值解法及其R语言实现

2018-09-18 16:58:29 5372 1

原创 PCA主成分分析

PCA主成分分析PCA(principal components analysis)主成分分析是一种较老的一种应用于降维的方法,其目的是在于找到一种线性映射,将原始输入向量映射至较低维向量空间,同时使得向量间的方差最大(为了使得各向量能区分的更好)。并且,该线性映射不是普通的线性映射,而是正交的,使得映射后各维度正交以更好地解释。 下面来具体解释一下PCA的内部推导过程原理篇根据我们...

2018-08-19 12:42:18 6465

原创 Logistic回归详解

Logistic回归原理推导及代码实现Logistic回归为概率型非线性回归模型,是研究二分类观察结果之间关系的一种多变量分析方法,在工业界应用广泛,因此了解其原理及实现较为重要。本篇文章将通过极大似然法对logistic回归进行推导,并利用python进行代码实现。Logistic回归原理推导及代码实现原理篇Sigmoid函数极大似然推导梯度上升法实现篇原...

2018-08-15 16:15:36 15582 2

转载 Python和R交互使用

python 与 R 是当今数据分析的两大主流语言。作为一个统计系的学生,我最早接触的是R,后来才接触的python。python是通用编程语言,科学计算、数据分析是其重要的组成部分,但并非全部;而R则更偏重于统计分析,毕竟R是统计学家发明的,本身就是为统计而生。python的优势在于其全能性,几乎所有的领域都有python的身影,而R则在统计及其相关领域非常专业。二者各有优势。那么这么好的两个东...

2018-08-08 10:53:12 19900 1

转载 关键词提取算法TextRank

关键词提取算法-TextRank今天要介绍的TextRank是一种用来做关键词提取的算法,也可以用于提取短语和自动摘要。因为TextRank是基于PageRank的,所以首先简要介绍下PageRank算法。PageRank算法 PageRank设计之初是用于Google的网页排名的,以该公司创办人拉里·佩奇(Larry Page)之姓来命名。Google用它来体现网页的相关性和重要性,...

2018-08-07 23:19:22 15901

原创 Python实现自动写邮件

Python实现自动写邮件本文将以腾讯企业邮箱为例,利用python编写自动写邮件程序。将用到以下库和模块:import smtplib

2018-08-01 11:41:34 34442

原创 因子分析(Factor Analyse)推导以及R语言实现

因子模型对于降维算法里,大家熟知的是SVD和PCA,甚至是t-sne。但在统计解释上来说,降维算法找到了相应的低维子空间,但解释力不足,比如PCA,对于降维后数据的解释力降低。因此对于小规模数据集,在变量众多的情况下,因子模型是较好的处理多变量的方法。通过PCA降维估计,再进行因子旋转,使得因子模型在降维的同时具备了较好的解释力。准备工作因子模型假设中心化的X线性依赖于一些未观测到的随...

2018-07-16 20:19:33 60846 3

原创 MySQL习题

搜集的一些MySQL的基础习题附自己的答案,不涉及排名。答案不是最好的写法,是比较基本的思路。建表一共有四个表,主键对应关系为学生表对应成绩表,再到课程表,最后到教师表。## 学生表create table Student(id varchar(10),name varchar(10),age datetime,sex nvarchar(10));insert into Stude...

2018-07-13 21:22:26 30466 1

原创 统计量及其分布

统计量统计量是什么?从定义上说,统计量是不含未知参数的样本函数。统计量是一个函数,是对样本信息的一个精炼提取,以此反映总体情况的工具。我们通常记统计量为T=T(x1,x2...xn)T=T(x1,x2...xn)T=T(x_1,x_2...x_n) 常用的统计量有,样本均值,样本方差,样本峰度,样本偏度。统计量及其分布这章的核心是认识经验分布函数,统计量以及三大抽样分布,这些构成...

2018-07-13 11:25:16 40348 2

原创 利用马青公式输出π的后任意位数字

马青公式π=16arctan15−4arctan1239π=16arctan15−4arctan1239\pi = 16arctan \frac{1}{5} - 4arctan \frac{1}{239} arctanx=x−x33+x55−......arctanx=x−x33+x55−......arctan x = x - \frac{x^3}{3} + \frac{x^5}{5}-....

2018-06-28 21:25:21 33782 2

原创 经验分布函数与格里纹科定理

统计量及其分布总体与样本经验分布函数频数频率分布表与茎叶图统计量充分统计量因子分解定理三大分布卡方分布F分布t分布参数估计各类估计方法参数估计的性质统计量及其分布这章的核心是认识经验分布函数,统计量以及三大抽样分布,这些构成了数理统计的基础。总体与样本研究对象的全体为总体。样本是从总体中随机抽取的n个个体,为一族随机变量...

2018-06-27 22:43:37 35840

原创 损失函数的推导

之前在机器学习算法的学习中一直疑惑,为什么cost function通常都为 J(θ)=12(y−hθ(x))2J(θ)=12(y−hθ(x))2J(\theta) = \frac{1}{2}(y-h_\theta(x))^2 起初认为是绝对值不好计算因而换成平方项,但是这个1212\frac{1}{2}解释不通(虽然它并不影响),而且为什么不是其余偶数次项,于是很好奇这个是怎么来的。 后面...

2018-06-24 00:45:03 32898

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除