自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

转载 python之timeit模块

https://www.cnblogs.com/Uncle-Guang/p/8796507.html

2020-02-14 16:53:49 162

原创 数据研发

一、Hive和Mysql的区别二、hadoop和spark的区别1、Hadoop有两个核心模块,分布式存储模块HDFS和分布式计算模块Mapreduce2、Spark本身并没有提供分布式文件系统,因此spark的分析大多依赖于Hadoop的分布式文件系统HDFS3、Hadoop的Mapreduce与spark都可以进行数据计算,而相比于Mapreduce,spark的速度更快并且提...

2019-10-14 21:07:59 708

原创 机器学习问题之杂碎问题

一、机器学习中,为什么经常要对数据做归一化处理?维基百科的回答:(1)归一化后加快了梯度下降求最优解的速度;(2)归一化有可能提高精度。归一化为什么能提高梯度下降法求解最优解的速度?如下图所示,蓝色的圈圈图代表的是两个特征的等高线。其中左图两个特征X1和X2的区间相差非常大,区间是[0,2000],区间是[1,5],其所形成的等高线非常尖。当使用梯度下降法寻求最优解时,很有可能走“之字型...

2019-09-29 11:54:19 217

原创 数据分析面试中的业务问题

一、如何估算今年新生儿出生数量首先,这类估算问题会经常出现在数据分析、产品、咨询类岗位,统称为费米问题。分析这类问题可以 分别从两个角度展开。 根据情况,可以采用 Top down bottom up 法则 ,即 先从宏观层面, 自上而下推,再由某个点横向切入,反推上去。或者也可以从需求层面和供给层面来说。然后可以对比 两次推测得到的结果,如果相差 不悬殊,那基本就没差啦。然后在陈述的时候也可...

2019-09-23 17:42:51 15736 1

原创 机器学习之简单而又复杂的逻辑回归

前言:逻辑回归是面试当中非常喜欢问到的一个机器学习算法,因为表面看上去很简单,很好掌握,但是一不小心就会被问懵逼。一、什么是逻辑回归?一句话概括:逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降法求解未知参数,来达到对数据二分类的目的。二、逻辑回归的基本假设任何模型都有自己的假设,在这个假设下模型才是适用的。逻辑回归的第一个基本假设是假设数据是服从伯努利分布的...

2019-09-10 11:28:39 304

原创 机器学习之聚类算法

一、K均值聚类1、原理:K-meas算法以k为参数,把n个对象分为k个簇,使得簇内相似度较高,簇间相似度较低2、步骤:1.随机选取k个点作为初始聚类的中心2.对于剩下的点,根据其与聚类中的距离,将其归入最近的簇3.对每个簇,计算所有点的均值作为新的聚类中心。4.重复2.3步骤,...

2019-09-05 14:49:37 1012

原创 数据分析中的统计学知识

一、P值、显著性水平、置信区间、置信水平、功效函数是什么?p值:在一个假设检验问题中,利用观测值能够做出拒绝原假设的最小显著性水平。显著性水平:估计总体参数落在某一区间内,可能犯错误的概率。置信水平:总体参数值落在样本统计值某一区间内的概率。他是怎么来的呢?:将构造置信区间的步骤重复多次,置信区间包含总体参数真值的次数所占的比例(需要进行多次实验)。置信区间:在某一置信水平下,样本...

2019-09-05 11:47:50 5392

原创 数据库&SQL知识

一、Alter和Update的区别功能上的区别Alter:修改表结构 例如增加列:ALTER TABLE 【表名】 ADD 【列名】 【类型】 删除列:ALTER TABLE 【表名】 DROP 【列名】 重命名列:ALTER TABLE 【表名】 CHANGE 【列名】【新名】 ...

2019-09-03 12:15:27 1318

原创 机器学习问题汇总之树模型

一、CART、C4.5和ID3算法的区别以及他们的优缺点历史回顾:1984年提出了CART,1986年提出了ID3、1993年提出了C4.5算法使用的规则不一样ID3使用信息增益来决定树的分裂:C4.5使用信息增益比来决定树的分裂CART的话可以是分类树也可以是回归树。当是分类树时,使用基尼系数来指导树的分裂当是回归树时,使用的是平方损失最小:2、ID3和C...

2019-08-06 16:37:28 402

原创 机器学习问题汇总之L1和L2正则化

1、什么是L1正则&L2正则:2、两者的区别是什么L1正则是指在损失函数中加入向量权值w的绝对值之和,即各个元素的绝对值之和,L2正则是在损失函数中加入权值向量w的平方和。 L1的功能是使权重稀疏(可以进行变量选择),而L2的功能是使权重平滑。3、L1正则为什么可以得到稀疏解?解空间形状也就是说:L2正则化相当于为参数定义了一个圆形的解空间,而L1正则化为参数定义了一...

2019-08-02 13:49:51 474

原创 python中*args和**kargs得用法总结

https://www.cnblogs.com/chaojiyingxiong/p/9223754.html

2019-07-09 14:38:15 868

转载 数据结构之哈夫曼树

https://www.cnblogs.com/yeya/p/9835895.html

2019-07-08 14:37:46 103

原创 Excel进行数据分析

众所周知,excel是一个强大的办公软件。作为一个统计学专业的学生,一提到数据分析,大家所用的都是python、C、R等语言,却忘了很多基本的工作完全可以在excel里面用更简单的操作完成,尤其是那些对编程头痛的小伙伴,这是一种福音,当然这些可能只是数据分析师的初级工作。这篇文章是在听了知乎上猴子的live直播后自己整理的,希望能够进一步巩固自己的操作能力。数据理解1、试图的详细化拿到一份数...

2019-01-22 21:15:58 1833

原创 kaggle练习-共享单车数据

中国小黄车的惨败,激起了我们对共享单车的兴趣。国外的这一行业要早于中国,这个数据是来自kaggle的比赛项目,由美国一家共享单车公司提供。数据基本结构1、载入数据import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom datetime import da...

2019-01-20 19:26:57 12571 10

原创 kaggle练习-泰坦尼克数据

这里写自定义目录标题数据基本结构了解载入数据缺失值的处理功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入数据基本结构了...

2019-01-14 15:09:57 2505

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除