![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析
文章平均质量分 67
毛飞龙
这个作者很懒,什么都没留下…
展开
-
Python数据分析操作-时间序列
本文为python时间数据处理方法笔记,分享工作中实用的时间数据处理方法,后续持续更新原创 2022-07-09 12:09:25 · 561 阅读 · 0 评论 -
机器学习-集成学习-提升树-Xgboost
xgboost 的全称是eXtreme Gradient Boosting,由华盛顿大学的陈天奇博士提出,在Kaggle的希格斯子信号识别竞赛中使用,因其出众的效率与较高的预测准确度而引起了广泛的关注。GBDT算法只利用了一阶的导数信息,xgboost对损失函数做了二阶的泰勒展开,并在目标函数之外加入了正则项对整体求最优解,用以权衡目标函数的下降和模型的复杂程度,避免过拟合。所以不考虑细节方面,两者最大的不同就是目标函数的定义,接下来就着重从xgboost的目标函数定义上来进行介绍。原创 2022-01-02 11:47:41 · 449 阅读 · 0 评论 -
机器学习-集成学习:随机森林(Random Forest)
内容参考:https://github.com/NLP-LOVE/ML-NLP/tree/master/Machine%20Learning/3.1%20Random%20Forest略做修改0.集成学习如果你随机向几千专家询问一个复杂的问题,然后汇总他们的回答,在许多情况下,你会发现,这个汇总的答案比最好的那个专家回答得要好。同样,如果你聚合一组预测器(比如分类器或者回归器)的预测,得到的预测结果也比最好的单个预测器要好,这种聚合一组预测器来进行预测的方法,称为集成学习。例如..原创 2021-12-27 20:41:01 · 2381 阅读 · 0 评论 -
Python地理可视化工具包 folium介绍
本文内容转载自:https://www.cnblogs.com/feffery/p/9282808.html一、简介 folium是js上著名的地理信息可视化库leaflet.js为Python提供的接口,通过它,我们可以通过在Python端编写代码操纵数据,来调用leaflet的相关功能,基于内建的osm或自行获取的osm资源和地图原件进行地理信息内容的可视化,以及制作优美的可交互地图。其语法格式类似ggplot2,是通过不断添加图层元素来定义一个Map对象,最后以几种方式将Map对象展现出来。转载 2021-07-22 16:37:30 · 3764 阅读 · 1 评论 -
线性回归模型算法原理及Python实现
线性回归方程线性回归模型的一般表达式:转换为向量表达形式为:训练线性回归模型,主要是得到一组向量,使得均方误差MSE(成本函数)最小参数求解方法一:标准方程MSE为凸函数,有唯一最优解(最小值),为了求解,可以令MSE对求偏导数为0,得到解:手动求解线性回归方程现在我们来使用标准方程计算:import numpy as npX = 2 * np.random.rand(100, 1) # 生存100 X 1维向量(均匀分布随机数)y = 4 + ...原创 2021-01-24 18:17:55 · 2051 阅读 · 0 评论 -
Pandas数据分析常用数据操作(3年总结)
原创文章,转载请注明来源,谢谢导入设置import odpsimport numpy as npimport pandas as pdimport matplotlib as mplimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei'] # matplotlib画图中文支持plt.rcParams['axes.unicode_minus']=False # matplotlib画图原创 2021-01-09 20:48:56 · 1582 阅读 · 1 评论 -
plotly之甘特图绘制
应用场景时间顺序的数据分析往往需要用到甘特图,比如骑手出勤的时间分析,商户出餐的时间分析等等plotly有一个专门绘制甘特图的模块figure_factory.create_gantt(),可以很方便地绘制甘特图。函数参数说明plotly.figure_factory.create_gantt(df,colors=None,index_col=None,show_colorbar=False,reverse_colors=False,title='GanttChart',bar...原创 2020-10-27 21:48:29 · 3543 阅读 · 5 评论 -
scipy.interpolate: 插值和平滑处理
scipy有很多插值函数(方法),按维度可分为一维、二维和多维的插值方法,按方法包括拉格朗日和泰勒插值方法等,具体插值函数可参阅如下介绍:https://docs.scipy.org/doc/scipy/reference/interpolate.html?highlight=scipy%20interpolate#module-scipy.interpolate一维插值这里简单介绍下一维插值方法interpolate.interp1dimport numpy as npfrom sci原创 2020-10-10 16:39:51 · 7134 阅读 · 1 评论 -
scipy.optimize.fsolve:用Python求解方程的解
例1:求解方程组的一个解:x0*cos(x1)=4,x1*x0-x1=5。需要注意两点:1.定义方程组,方程组要写出f(x)=0的形式(=0不需要写出来),所以原方程右边4和5都要移项到左边。2.求解方程都根,对于非线性方程,通常会有不止一个解(对于唯一解的线性方程,初始值的设置对方程的解没有影响),因此需要设置大致初始解(取值范围),这样方程在初始值附近按梯度下降进行求解,可得局部最优解3.第2步中的局部最优解不一定是满足方程的解,可以使用np.isclose(func...原创 2020-10-10 14:15:23 · 24373 阅读 · 4 评论 -
scipy.optimize.curve_fit-曲线拟合
Scipy是一个用于数学、科学、工程领域的常用软件包,可以处理插值、积分、优化、图像处理、常微分方程数值解的求解、信号处理等问题。它用于有效计算Numpy矩阵,使Numpy和Scipy协同工作,高效解决问题。原创 2020-10-09 19:53:28 · 9327 阅读 · 1 评论 -
简单线性回归
引言对于线性回归模型,很多人在做数据分析的时候都运用过,用于分析两个变量之间的关系,但可能对其中的原理并没有进行细致的思考,比如r2数值的统计意义?在统计学上,线性模型的有效性如何进行评估?估计y的均值和单次y的95%置信区间CI是怎么做的?等等,这里对这些原理进行解释,但不给出证明。简单线性回归的例子一个财险公司想要把主要住宅火灾的损失金额y与火灾点到最近的消防站的距离建立联系,这项研究在一个大城市范围很大的郊区完成,每起火灾的损失金额y与受灾点到最近的消防站的距离x都被记录下来,结果如下表所原创 2020-06-07 18:06:00 · 4815 阅读 · 0 评论 -
分类数据的分析-卡方检验运用
概念分类数据观测值只能被分为几个类别中的某一类,如某个公民的国籍,也称定性数据。多项试验当分类数据只涉及到两个响应结果(是或不是,成功或失败等等),就是一个二项分布。如果分类数据涉及到两个以上的响应结果,则是一个多项试验。多项试验的特点:1. 这种试验有n个同质的试验构成(进行了样本为n次试验)2.每次试验都有k种可能都结果,这些结果被称为类3.对于每次试验,这k中结果发生都概率用p1,p2,...,pk表示,并且在每次试验中都相同,其中p1+p2+...+pk=14.每原创 2020-05-30 23:11:45 · 7876 阅读 · 0 评论 -
基于单样本单统计推断-假设检验
统计推断是统计学中非常核心的内容,本文介绍了统计推断中单样本假设检验的方法,包括假设检验的要素、步骤,以及常见的3种假设检验的方法,包括总体均值检验、总体比例检验和总体方差检验原创 2020-04-19 11:53:25 · 2432 阅读 · 0 评论 -
t分布(Student t distribution)——正态分布的小样本抽样分布
目录大样本抽样分布正态分布小样本抽样分布—t分布运用t分布构建小样本抽样均值的置信区间运用t分布进行小样本抽样均值检验大样本抽样分布对于大样本的抽样分布,由中心极限定理,无论总体分布是否为正态分布,其均值x_bar的抽样分布为近似正态分布,同时对于较大的n(n>=30),s将会是σ的优良估计。x_bar的抽样分布的置信区间可以使用z统计量来构建,z统计量为:...原创 2020-03-21 17:52:06 · 24033 阅读 · 0 评论 -
Hive中的算术运算符:位运算符解释
Hive中的位运算符运用不多,可能大部分人也不少很熟悉,其实就是将两个数值转为位相应的二进制,在相应位上进行与、或、反、异或操作:1. 位与操作: &语法: A & B操作类型:所有数值类型说明:返回A和B按位进行与操作的结果。结果的数值类型等于A的类型和B的类型。举例:hive> select 4 & 8 from t_fin_demo;...原创 2020-01-04 18:11:08 · 10070 阅读 · 0 评论 -
SQL case when 2种用法
一、基本表达式(case when {条件表达式} then{结果表达式} when {条件表达式} then{结果表达式} when {条件表达式} then{结果表达式} else{结果表达式} end) as 字段名要注意不要漏了else 和end二、用法1. 创建一个新字段,其取值由另外一个字...原创 2019-12-27 17:59:54 · 824 阅读 · 0 评论 -
分类变量如何设置变量值的显示顺序
在做数据分析的时候,有时候分类变量值默认的排序不是我们想要的,需要调整显示顺序,pandas可以通过pd.Categorical来设置分类变量的显示顺序。例如,对于数据分析教程常用的diamonds数据集,color等级是从J, I, H, G, F, E, D逐渐上升,如果要考察color等级和价格的关系,自然是希望color按照J, I, H, G, F, E, D顺序显示,但数据默认会按...原创 2019-12-07 19:47:59 · 1228 阅读 · 0 评论 -
向seaborn传递matplotlib绘图参数,精细地控制seaborn输出图形
1. matplotlib与seaborn的关系matplotlib绘图参数非常多,可以通过参数精细的控制图形输出,这是它的优点。但同时也很复杂,绘一个图常常需要很多行代码,需要使用者熟悉众多图形控制参数,不容易上手,这是它的缺点。seaborn是基于matplotlib的数据可视化软件包,本身并不画图,而是调用matplotlib进行绘图,在做探索式数据分析时,特别是对于dataframe数...原创 2019-12-07 18:22:17 · 1237 阅读 · 2 评论 -
客户挽留:信用卡客户流失管理
一、客户流失管理过程业务目标:预测客户流失的概率和挽留的价值-->数据准备:数据决定结果-->流失预警:哪些客户即将流失-->客户价值:哪些客户更值得挽留-->分客群挽留策略:收益和成本的平衡-->业务目标二、目标理解需要对客户的销卡行为和价值进行预测,制定差异化的挽留策略,实现收益和成本的最佳平衡。典型聚类问题,将客户按销卡概率...原创 2019-08-04 16:11:45 · 3618 阅读 · 1 评论 -
离散概率分布与期望
1. 离散概率分布:随机变量取确定的离散值对应的概率分布,如抛一枚硬币对应的正面和反面的概率,老虎机中不同等级奖项的概率,一般的表示为,随机变量X取x1, x2,...,xn对应的概率为P(X=x1),P(X=x2),...P(X=xn)2. 随机变量期望:随机变量X期望的长期平均结果,用E(X)或μ表示计算公式:E(X)=∑xP(X=x)X的函数f(X)的期望:E(X)=∑f(x)P...原创 2019-08-10 16:40:44 · 6125 阅读 · 1 评论 -
离散分布概率:几何分布、二项分布和泊松分布
离散分布主要包括3个重要的分布:几何分布、二项分布和泊松分布,这里主要介绍下这三种分布解决的典型概率问题,区别和联系。1. 几何分布:问题:查德在任意一次滑雪中(假定每次滑雪都是独立事件)不出事故顺利抵达坡底的概率为0.2,试问:查德不超过2次就能成功滑到坡底的概率有多大?试滑一次成功的概率 P(X=1)=0.2试滑两次成功的概率为P(X=2)=0.8x0.2=0.16试滑不超...原创 2019-08-15 14:26:02 · 5377 阅读 · 0 评论 -
复杂正态分布运用——独立正态分布组合概率、二项分布、泊松分布近似正态分布的运用
上一篇讲了正态分布的基本概念和概率求解的计算方法(正态分布及其概率计算https://blog.csdn.net/weixin_41140174/article/details/99696028),这篇主要讲独立正态分布组合概率的计算、二项分布近似正态分布的条件和运用,泊松分布近似正态分布的条件和运用1. 独立正态分布组合概率计算问题:已经新郎和新娘的体重都符合正态分布,分别为新郎~N(1...原创 2019-08-18 09:28:43 · 14129 阅读 · 2 评论 -
正态分布及其概率计算
上一篇讲了三个典型的离散分布(离散分布概率:几何分布、二项分布和泊松分布https://blog.csdn.net/weixin_41140174/article/details/99634408),这篇开始进入连续型概率分布,最常用的“正态分布”。1. 连续型概率分布和离散型概率分布离散型概率分布:几何分布、二项分布、泊松分布都是离散型概率分布,一般是求事件出现次数的概率,次数是整数,其...原创 2019-08-17 17:47:56 · 221422 阅读 · 3 评论 -
SQL查询语句基础构成
本文是基本的SQL查询语句用法,内容主要来自Alan Learning SQL这本书第3章,包括select,from,where,group by,having,order by六个查询子句,后续会深入介绍每个查询子句的用法。1. 查询机制在已经创建数据库连接的情况下,当查询被发送到服务器端时,服务器在执行查询语句之前需要进行检查:用户是否有权限执行该语句? 用户是否有...原创 2019-08-31 22:52:27 · 1504 阅读 · 0 评论 -
SQL查询过滤Where子句用法
大多数情况下,查询关注的是表中所有行的一个子集,需要用到Where过滤,本文主要介绍过滤的条件连接符(AND, OR, (),NOT),条件类型(相等条件、范围条件、成员条件、通配条件)以及当列名包含NULL值的注意事项。原创 2019-09-01 11:01:38 · 32127 阅读 · 4 评论 -
R中千分位分隔符数值(美式数值)读取
1. 千分位分割数值对于英美数值数据,千分位分隔符(逗号分割)很常见,如下面一份房地产销售数据,land.squre.feet, gross.square.feet两列数据。2. R不能自动识别千分位分割数值虽然在Excel里面,千分位分隔符数值和普通数值没什么区别,也可以通知设置单元格格式进行转化,但是在R中却有大的区别,即千分位分隔符并不是数值,不能直接做数值计算。>...原创 2019-09-07 17:12:34 · 2284 阅读 · 0 评论 -
魔法函数%matplotlib 解决matplotlib画图在Jupter/IPython中不显示
用Python画图时,有时候画图结果存储在内存中不显示,如下图import seaborn as snssubset = tz_counts[:10]sns.barplot(y=subset.index, x=subset.values)<matplotlib.axes._subplots.AxesSubplot at 0x2bfcb791390>加上命令 plt.s...原创 2019-07-02 17:22:34 · 2468 阅读 · 0 评论