自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 收藏
  • 关注

原创 BI工具Superset的数据可视化分析平台搭建

文章目录1. Superset简介2. Superset环境搭建步骤2.1 Anaconda的安装2.2 Superset安装3. 连接Hbase、Hive和MySQL3.1 通过Phoenix连接Hbase3.2 连接Hive3.3 连接MySQL4. Superset dashboard 示例5. Superset总结6. 参考1. Superset简介Superset由 Airbnb 开...

2019-07-12 17:12:24 4200

原创 Hadoop大数据常用组件简介

文章目录1. 分布式文件系统(HDFS)1)NameNode2)SecondaryNode2. 资源管理调度框架Yarn1)ResourceManager2)ApplicationMaster3)NodeManager4)Container3. 分布式协调服务ZooKeeper4. 数据仓库工具Hive1)HiveServer25. 分布式计算框架Spark1)Spark SQL2)Spark S...

2019-06-04 17:29:34 7216

原创 Spark RDD或Dataframe持久化的选择

背景测试数据(df,dataframe格式):800万条, 4.5G。计算配置:每个executor的memory为20G,32个核。测试语句:count条数—df.groupby("_90").count().show()持久化操作持久化操作特点代码计算时间(秒)无df.count()17只到内存以分区的形式存到集群的各机器内存中上df.pers...

2018-09-30 11:54:58 3046

翻译 SQL学习笔记

1. AS和INNER JOIN数据库pet_records上面两张表Pets和Owners,合成Pets_And_Owners,注意AS和INNER JOIN的用法:SELECT p.Name AS Pet_Name, o.Name as Owner_NameFROM `pet_records.pets` as pINNER JOIN `pet_records.owners` as o ON...

2018-06-23 15:57:06 267

原创 Python之数据可视化

背景在进行有效的数据处理和分析建模之前,需要事先深入的了解下数据,数据的可视化是非常必要和关键的一步。 1、pandas简单绘图单变量绘图,即只画其中一列数据,横坐标默认为index:# 柱状图df.plot.bar()# 折线图df.plot.line()# 直方图df.plot.hist()# 面积图df.plot.area()双变量绘图,即需要...

2018-06-15 15:10:57 3406

原创 Pandas数据操作学习笔记

df.country.unique() 表示dataframe中的country列中没有重复的字段,也就是共有哪些国家df.country.value_counts() 统计country列中不同国家出现的次数表示dataframe中description列中每个字段是否含有tropical,注意map用法tropical_wine = df.description.map(lam...

2018-06-12 23:50:24 465

原创 pandas之loc深度用法

1、loc 不仅可以输入数字也可以直接column名字,注意先行后列 df.loc[[0, 1, 10, 100], ['country', 'province', 'region_1', 'region_2']] 表示index(行)为0,1,10,100,列名为'country', 'province', 'region_1', 'region_2'。 2、 df.loc[df.coun...

2018-06-11 21:09:46 19029 3

原创 机器学习之GridSearchCV模型调参

背景大部分机器学习模型都会有很多参数,不同的参数组合会产生不同的效果 ,如果模型数据量不是很大,也就是说运行时间不是很长,可以考虑使用GridSearchCV这个工具包自动选择输入参数中的最优组合。注意:在实际应用中,可能会遇到很大数据量,模型运行特别费计算资源和时间,这个时候用GridSearchCV可能会成本太高,需要对模型了解深入一点或者积累更多的实战经验,最后进行手动调参。代码...

2018-06-11 14:46:39 8801

原创 将分类文本数据转换为模型可输入数据get_dummies

背景很多数据是文本类型的,譬如调查问卷中一些Yes or No选择,将其直接输入模型,很多时候会报错。这里提供一个简单的方法,将其用one-hot encoding pd.get_dummies()的方式转换一下。import pandas as pddf = pd.DataFrame({'a':[None,1,2,3],'b':[4,None,None,6],'c':[1,2,1...

2018-06-04 17:39:15 825

翻译 Python如何优雅地处理NaN

背景很多数据不可避免的会遗失掉,或者采集的时候采集对象不愿意透露,这就造成了很多NaN(Not a Number)的出现。这些NaN会造成大部分模型运行出错,所以对NaN的处理很有必要。方法1、简单粗暴地去掉有如下dataframe,先用df.isnull().sum()检查下哪一列有多少NaN: import pandas as pddf = pd.DataF...

2018-06-04 14:22:07 105458 2

翻译 Kaggle机器学习之建模必要流程

Kaggle的机器学习教程中,概括了建模的几个常识或者必要流程。 1. 清洗好数据,得到X和y。 2. 选择合适的模型,面对未知的数据和业务需求可以先尝试不同的模型。 3. 将样本数据分为训练数据和检验数据两类,训练数据带入模型,参数可先从简,检验数据进行模型检验。 4. 模型参数优化,以防欠拟合和过拟合。清洗好数据,得到X和y。 2import pandas as pd...

2018-06-02 21:47:06 680 1

原创 学会使用Python的帮助

常用的三种方式:1. dir()主要用来查看对象的属性。>>> a = [1,2,3]>>> b = (1,2,3)>>> print dir(a)[..... 'append', 'count', 'extend',

2018-05-27 00:52:22 8042

原创 简单求散点曲线面积并求均值

例:加热一根钢管,因为热损耗及加热不完美均匀的问题,钢管上温度分布不均匀,通过测量不锈钢管上的温度分布,我们得到了下面这样的一个曲线,然后如何求钢管上的平均温度。不锈钢管上温度分布思路:这里我们用积分(曲线下面积)然后除以起始测量的距离差。直接求平均会有较大误差,一是温度分布没规律,二是如果测量时没有等距测量误差则更大方法一、Exc...

2018-02-08 13:40:00 8574

原创 Jupyter notebook server配置

目的通过任何一台电脑浏览器访问https://我的ip: 端口号,就可以编辑我本地电脑的Jupyter notebook,譬如调试notebook里面的Python代码,但不需要在别的电脑上安装需要的package了 。配置Jupyter notebook server1. 具体配置参考这篇文章Running a notebook server,照着...

2017-08-18 14:23:00 2501

原创 归纳推理和演绎推理

归纳推理就是根据已有的数据或者事实,去寻找规律,甚至找到方程式,然后带入或者外推到未知的数据,譬如预测人口,我们可以根据已有的数据推出一个人口数与年份的拟合公式,然后带入年份外推即可。演绎推理是根据已有的事实,得到其他的一些事实,然后可以用其他数据来验证。常见的譬如公式的逻辑推理(譬如推倒(x+y)2 = x2 +2xy +y2),演算得到不同的公...

2017-08-15 20:28:00 4138

原创 F检验(ANOVA)

F分布是两个卡方分布(具有不同的自由度)的比值。方差分析(ANOVA),又叫F检验,简单来说,就是求得F统计量(组间方差/组内方差),然后查F表,如果大于临界值(一般是0.05显著性水平下)则拒绝原假设,即组间具有显著性的差异。F统计量 = 组间方差/组内方差这里的方差等于平方和除以自由度,组间的自由度为(组数-1),组内自由度为组数*(样本量-1...

2017-08-15 20:26:00 49569

原创 中心极限定理

中心极限定理:设从均值为μ、方差为σ2总体中抽取样本量为n的样本,当抽取次数充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n 的正态分布。中心极限定理是统计学里非常伟大的定理,对于属于正态分布的指标数据,我们可以很快捷地对它进行下一步假设检验,并推算出对应的置信区间;实际应用中,很多分布往往是很杂乱的,但是根据中心极限定理,样本均值的抽样分...

2017-08-15 00:38:00 6958

原创 68-95-99.7法则

在实际应用上,常考虑一组数据具有近似于正态分布的概率分布。若其假设正确,则约 68% 数值分布在距离平均值有 1 个标准差之内的范围,约 95% 数值分布在距离平均值有 2 个标准差之内的范围,以及约 99.7% 数值分布在距离平均值有 3 个标准差之内的范围。称为"68-95-99.7法则"。PS:对于不符合正态分布的数据,该法则依然适用...

2017-08-14 23:42:00 4096

原创 95%置信区间

置信区间在SPSS里可以通过描述-探索获得1. 样本容量大于30根据中心极限定律以及正态分布(z table),95%置信区间的范围基本等于:sample mean ± 2*样本均值的抽样分布的标准差这里,sample mean是观测到的,‘2’是查正态分布z table表得出,而样本均值的抽样分布的标准差(也叫标准误差SE)等于:samp...

2017-08-14 23:33:00 17551

原创 关于p值的一些经验法则

p值挺依赖样本的,样本太大,即使一个很小的差也会统计为显著的差异.同样的样本量,Z-test更容易得到小的p值,t分布比较胖,置信区间会更大一些。样本量小,样本SD会低估总体的SD,所以用t-test,当样本量大于30时,t-test基本就变成了Z-test。单侧检验的p值是双侧检验的一半。双侧检验:当我们的假设是有没有差异性的时候:H0: ...

2017-08-14 23:11:00 3583

原创 伯努利分布(二项分布)的假设检验

要点1. 单个二项分布检验用SPSS二项检验或者单样本T检验2. 比较两个个二项分布差异性之类的可以用Anova或者独立样本T检验,后者可以得到置信区间。3.上面的SPSS数据形式都是1和0的形式,用MATLAB生成即可。譬如这样一个问题:中国的互联网络覆盖率是不是在30%以上(5%显著性水平)?抽样显示,150个样本中,有57个是有网络覆盖...

2017-08-14 22:55:00 32124 1

原创 样本量对差异性分析(Anova)或者T 检验的影响

样本量大的时候做差异性分析容易得到有显著性差异的结论,原因如下图, 求p值的过程中,n越大,Z0也越大,相对应的p就小了。当然这里默认方差变化不大的情况下,因为一般来说很多数据经过平均后方差不会变化很大,相比平均前后的样本量。p值计算, from google image下图中的数据,y1和y2的数据量各为1000,y1m和y2m数据量各为...

2017-08-08 19:15:00 17184

原创 TableCurve 3D寻找拟合公式

拟合的时候不知道拟合公式的情况下,可以尝试TableCurve 2D和TableCurve 3D(听说1stopt 也不错,也支持拟合公式海量匹配,而且在已知公式拟合的时候甚至要优于MATLAB的,因为初值的问题)。TableCurve 3D内置了37365个公式可供拟合,只支持z = f(x, y)这样的公式形式,TableCurve 2D内置了3507...

2017-08-04 19:12:00 5765

原创 灰色模型(GM)的局限浅谈

灰色模型就是当有很多未知因素左右变量时,对变量进行预测的建模。以灰色系统中单序列一阶线性微分方程模型GM(1,1)模型最为常用,具体介绍看该论文。MATLAB封装好的gm11.m函数可在这里下载,已经验证。接下来我们检验下预测的效果,我们先对于没有什么规律的数据进行预测看看,因为有规律的数据譬如GDP年增长,人口增长之类的还是蛮准的。一、无规律的数据例如,一个早上7点50的石家庄到深...

2017-07-22 00:19:00 14327

原创 MATLAB自定义公式拟合

这里我们简单介绍下MATLAB拟合工具箱中自定义公式的拟合。以颗粒物PM为例子,我们有这样的处理好的excel数据,PM(电压),RH,Ref(标准PM值)。以 Ref = PM/(a +b*(RH^2)/(1-RH))为我们的自定义公式,求系数a和b。复制excel变量到MATLABMATLAB拟合工具箱拟合...

2017-07-21 15:38:00 18833

原创 关于样本标准差(SD)与样本标准误差(SE)

许多paper里经常能看到Mean±SD(SE)这样的表达方式,或者在图表里用SD或者SE来表示error bar,用SD的居多,但是也有不少用SE的。初学者很容易混淆SD(standard deviation)和SE(standard error)。SDSD我们都很清楚,是表达数据的离散程度,然后实际应用中很多数据具有近似正态分布的概率分布,有了SD...

2017-07-14 23:17:00 73424

原创 为什么样本标准差分母为n-1

我们知道总体标准差(σ)是按照下面的公式来计算的:但是在真实世界中,找到一个总体的标准差是不现实的。大多数情况下,我们都是通过计算样本标准差(s)来估计总体标准差(σ)的。但是s的计算公式是这样的:分母为什么要(n-1)呢,而不是n?维基百科给出的解释有点费解:看过很多统计学的教程和问...

2017-07-13 17:15:00 7774

原创 非线性关系用线性拟合和人工神经网络拟合的对比分析

实际应用中有很多非线性关系的变量很迷惑人,让人误用(多元)线性回归,这篇文章对比分析了线性回归和人工神经网络对这种变量的拟合,然后介绍下这种误用带来的后果,同时也会加深我们对人工神经网络的理解。一、多元线性回归(MLR)与人工神经网络(ANN)--有模式我们用数学上一个人人皆知的例子,矩形面积= 长*宽,假如一个研究人员不知道矩形面积与长和宽的关系,他...

2017-06-21 20:29:00 2888

原创 MATLAB神经网络简单预测--气体传感器

很多模式或关系不清晰的情况下,比较适合用神经网络。关于神经网络本身,最近发展的很快,应用也越来越广,自行谷歌。本文使用的为最为流行的前馈神经网络(feed-forward neural network),网络各层使用默认的Sigmoid函数,以气体传感器为例简单介绍下MATLAB神经网络工具箱的使用。我们有下面的数据原始电压CO_diff和温湿度(Te...

2017-06-14 21:27:00 2270

原创 Surfer绘制等值线图

本教程介绍如何用Surfer绘制如下效果的等值线图。(用GIS,Mapinfo也可以实现)其中,A1-A14为采样站位,该例子里红色区域为海域,放在陆地上一样的画,然后横坐标经度,纵坐标为维度。假如我们只有下面两个文件,数据文件data.xls和海岸线的bln文件渤海海岸线.bln,如下图,其中类似海岸线这种文件可以自己Surfer点取也...

2016-12-31 21:31:00 32023 5

原创 Excel批量自动处理数据——indirect与averageifs

在很多工作里,我们都会接触到大量固定格式的数据,大部分还可以用Excel打开,面对这些数据的处理,专业点的一般是编程处理,譬如matlab,Python和 R语言都是非常好用的。但是很多童鞋没接触过编程,也没时间学习或者对编程不感冒,所以我们今天介绍下用Excel批量处理下这样的数据,其思想与编程一样。1. 取自己想要的值indirect ()假如我们...

2016-12-14 00:03:00 2943

原创 Matlab—颜色图、簇状堆积柱状图和阴影Error Bar

Matlab里内置了很多绘图函数,也有很多开源的可以下载(Google很容易检索到)。这里介绍三种最近碰到的主要用于Paper里的几种图,有的可以用Excel绘制,但是相当繁琐,有那个时间去百度去谷歌,不如直接Matlab(或者其他很多工具像Origin,Suffer,R语言和Python等),写点code,一劳永逸。直入正题:1. 颜色图主要的函数是...

2016-12-12 19:55:00 7093

原创 Learn Markdown

这些只是一些简单的,基本上够用了;忘记了随时过来查。编辑图片大小直接更改最后一个数字即可

2016-12-12 12:51:00 183

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除