花花呼呼-CSDN博客

原创 BI工具Superset的数据可视化分析平台搭建

文章目录1. Superset简介2. Superset环境搭建步骤2.1 Anaconda的安装2.2 Superset安装3. 连接Hbase、Hive和MySQL3.1 通过Phoenix连接Hbase3.2 连接Hive3.3 连接MySQL4. Superset dashboard 示例5. Superset总结6. 参考1. Superset简介Superset由 Airbnb 开...

2019-07-12 17:12:24 4200

原创 Hadoop大数据常用组件简介

文章目录1. 分布式文件系统（HDFS）1）NameNode2）SecondaryNode2. 资源管理调度框架Yarn1）ResourceManager2）ApplicationMaster3）NodeManager4）Container3. 分布式协调服务ZooKeeper4. 数据仓库工具Hive1）HiveServer25. 分布式计算框架Spark1）Spark SQL2）Spark S...

2019-06-04 17:29:34 7216

原创 Spark RDD或Dataframe持久化的选择

背景测试数据（df，dataframe格式）：800万条, 4.5G。计算配置：每个executor的memory为20G，32个核。测试语句：count条数—df.groupby("_90").count().show()持久化操作持久化操作特点代码计算时间（秒）无df.count()17只到内存以分区的形式存到集群的各机器内存中上df.pers...

2018-09-30 11:54:58 3046

翻译 SQL学习笔记

1. AS和INNER JOIN数据库pet_records上面两张表Pets和Owners，合成Pets_And_Owners,注意AS和INNER JOIN的用法：SELECT p.Name AS Pet_Name, o.Name as Owner_NameFROM `pet_records.pets` as pINNER JOIN `pet_records.owners` as o ON...

2018-06-23 15:57:06 267

原创 Python之数据可视化

背景在进行有效的数据处理和分析建模之前，需要事先深入的了解下数据，数据的可视化是非常必要和关键的一步。 1、pandas简单绘图单变量绘图，即只画其中一列数据，横坐标默认为index：# 柱状图df.plot.bar()# 折线图df.plot.line()# 直方图df.plot.hist()# 面积图df.plot.area()双变量绘图，即需要...

2018-06-15 15:10:57 3406

原创 Pandas数据操作学习笔记

df.country.unique() 表示dataframe中的country列中没有重复的字段，也就是共有哪些国家df.country.value_counts() 统计country列中不同国家出现的次数表示dataframe中description列中每个字段是否含有tropical，注意map用法tropical_wine = df.description.map(lam...

2018-06-12 23:50:24 465

原创 pandas之loc深度用法

1、loc 不仅可以输入数字也可以直接column名字，注意先行后列 df.loc[[0, 1, 10, 100], ['country', 'province', 'region_1', 'region_2']] 表示index（行）为0,1,10,100，列名为'country', 'province', 'region_1', 'region_2'。 2、 df.loc[df.coun...

2018-06-11 21:09:46 19029 3

原创机器学习之GridSearchCV模型调参

背景大部分机器学习模型都会有很多参数，不同的参数组合会产生不同的效果，如果模型数据量不是很大，也就是说运行时间不是很长，可以考虑使用GridSearchCV这个工具包自动选择输入参数中的最优组合。注意：在实际应用中，可能会遇到很大数据量，模型运行特别费计算资源和时间，这个时候用GridSearchCV可能会成本太高，需要对模型了解深入一点或者积累更多的实战经验，最后进行手动调参。代码...

2018-06-11 14:46:39 8801

原创将分类文本数据转换为模型可输入数据get_dummies

背景很多数据是文本类型的，譬如调查问卷中一些Yes or No选择，将其直接输入模型，很多时候会报错。这里提供一个简单的方法，将其用one-hot encoding pd.get_dummies()的方式转换一下。import pandas as pddf = pd.DataFrame({'a':[None,1,2,3],'b':[4,None,None,6],'c':[1,2,1...

2018-06-04 17:39:15 825

翻译 Python如何优雅地处理NaN

背景很多数据不可避免的会遗失掉，或者采集的时候采集对象不愿意透露，这就造成了很多NaN（Not a Number）的出现。这些NaN会造成大部分模型运行出错，所以对NaN的处理很有必要。方法1、简单粗暴地去掉有如下dataframe，先用df.isnull().sum()检查下哪一列有多少NaN: import pandas as pddf = pd.DataF...

2018-06-04 14:22:07 105458 2

翻译 Kaggle机器学习之建模必要流程

Kaggle的机器学习教程中，概括了建模的几个常识或者必要流程。 1. 清洗好数据，得到X和y。 2. 选择合适的模型，面对未知的数据和业务需求可以先尝试不同的模型。 3. 将样本数据分为训练数据和检验数据两类，训练数据带入模型，参数可先从简，检验数据进行模型检验。 4. 模型参数优化，以防欠拟合和过拟合。清洗好数据，得到X和y。 2import pandas as pd...

2018-06-02 21:47:06 680 1

原创学会使用Python的帮助

常用的三种方式：1. dir()主要用来查看对象的属性。&amp;gt;&amp;gt;&amp;gt; a = [1,2,3]&amp;gt;&amp;gt;&amp;gt; b = (1,2,3)&amp;gt;&amp;gt;&amp;gt; print dir(a)[..... 'append', 'count', 'extend',

2018-05-27 00:52:22 8042

原创简单求散点曲线面积并求均值

例：加热一根钢管，因为热损耗及加热不完美均匀的问题，钢管上温度分布不均匀，通过测量不锈钢管上的温度分布，我们得到了下面这样的一个曲线，然后如何求钢管上的平均温度。不锈钢管上温度分布思路：这里我们用积分（曲线下面积）然后除以起始测量的距离差。直接求平均会有较大误差，一是温度分布没规律，二是如果测量时没有等距测量误差则更大方法一、Exc...

2018-02-08 13:40:00 8574

原创 Jupyter notebook server配置

目的通过任何一台电脑浏览器访问https://我的ip: 端口号，就可以编辑我本地电脑的Jupyter notebook，譬如调试notebook里面的Python代码，但不需要在别的电脑上安装需要的package了。配置Jupyter notebook server1. 具体配置参考这篇文章Running a notebook server，照着...

2017-08-18 14:23:00 2501

原创归纳推理和演绎推理

归纳推理就是根据已有的数据或者事实，去寻找规律，甚至找到方程式，然后带入或者外推到未知的数据，譬如预测人口，我们可以根据已有的数据推出一个人口数与年份的拟合公式，然后带入年份外推即可。演绎推理是根据已有的事实，得到其他的一些事实，然后可以用其他数据来验证。常见的譬如公式的逻辑推理（譬如推倒(x+y)2 = x2 +2xy +y2），演算得到不同的公...

2017-08-15 20:28:00 4138

原创 F检验（ANOVA）

F分布是两个卡方分布（具有不同的自由度）的比值。方差分析（ANOVA），又叫F检验，简单来说，就是求得F统计量（组间方差/组内方差），然后查F表，如果大于临界值（一般是0.05显著性水平下）则拒绝原假设，即组间具有显著性的差异。F统计量 = 组间方差/组内方差这里的方差等于平方和除以自由度，组间的自由度为(组数-1)，组内自由度为组数*（样本量-1...

2017-08-15 20:26:00 49569

原创中心极限定理

中心极限定理：设从均值为μ、方差为σ2总体中抽取样本量为n的样本，当抽取次数充分大时，样本均值的抽样分布近似服从均值为μ、方差为σ2/n 的正态分布。中心极限定理是统计学里非常伟大的定理，对于属于正态分布的指标数据，我们可以很快捷地对它进行下一步假设检验，并推算出对应的置信区间；实际应用中，很多分布往往是很杂乱的，但是根据中心极限定理，样本均值的抽样分...

2017-08-15 00:38:00 6958

原创 68-95-99.7法则

在实际应用上，常考虑一组数据具有近似于正态分布的概率分布。若其假设正确，则约 68% 数值分布在距离平均值有 1 个标准差之内的范围，约 95% 数值分布在距离平均值有 2 个标准差之内的范围，以及约 99.7% 数值分布在距离平均值有 3 个标准差之内的范围。称为"68-95-99.7法则"。PS：对于不符合正态分布的数据，该法则依然适用...

2017-08-14 23:42:00 4096

原创 95%置信区间

置信区间在SPSS里可以通过描述-探索获得1. 样本容量大于30根据中心极限定律以及正态分布(z table)，95%置信区间的范围基本等于：sample mean ± 2*样本均值的抽样分布的标准差这里，sample mean是观测到的，‘2’是查正态分布z table表得出，而样本均值的抽样分布的标准差（也叫标准误差SE）等于：samp...

2017-08-14 23:33:00 17551

原创关于p值的一些经验法则

p值挺依赖样本的，样本太大，即使一个很小的差也会统计为显著的差异.同样的样本量，Z-test更容易得到小的p值，t分布比较胖，置信区间会更大一些。样本量小，样本SD会低估总体的SD，所以用t-test，当样本量大于30时，t-test基本就变成了Z-test。单侧检验的p值是双侧检验的一半。双侧检验：当我们的假设是有没有差异性的时候：H0: ...

2017-08-14 23:11:00 3583

原创伯努利分布（二项分布）的假设检验

要点1. 单个二项分布检验用SPSS二项检验或者单样本T检验2. 比较两个个二项分布差异性之类的可以用Anova或者独立样本T检验，后者可以得到置信区间。3.上面的SPSS数据形式都是1和0的形式，用MATLAB生成即可。譬如这样一个问题：中国的互联网络覆盖率是不是在30%以上（5%显著性水平）？抽样显示，150个样本中，有57个是有网络覆盖...

2017-08-14 22:55:00 32124 1

原创样本量对差异性分析（Anova）或者T 检验的影响

样本量大的时候做差异性分析容易得到有显著性差异的结论，原因如下图，求p值的过程中，n越大，Z0也越大，相对应的p就小了。当然这里默认方差变化不大的情况下，因为一般来说很多数据经过平均后方差不会变化很大，相比平均前后的样本量。p值计算, from google image下图中的数据，y1和y2的数据量各为1000，y1m和y2m数据量各为...

2017-08-08 19:15:00 17184

原创 TableCurve 3D寻找拟合公式

拟合的时候不知道拟合公式的情况下，可以尝试TableCurve 2D和TableCurve 3D（听说1stopt 也不错，也支持拟合公式海量匹配，而且在已知公式拟合的时候甚至要优于MATLAB的，因为初值的问题）。TableCurve 3D内置了37365个公式可供拟合，只支持z = f(x, y)这样的公式形式，TableCurve 2D内置了3507...

2017-08-04 19:12:00 5765

原创灰色模型（GM）的局限浅谈

灰色模型就是当有很多未知因素左右变量时，对变量进行预测的建模。以灰色系统中单序列一阶线性微分方程模型GM(1,1)模型最为常用，具体介绍看该论文。MATLAB封装好的gm11.m函数可在这里下载，已经验证。接下来我们检验下预测的效果，我们先对于没有什么规律的数据进行预测看看，因为有规律的数据譬如GDP年增长，人口增长之类的还是蛮准的。一、无规律的数据例如，一个早上7点50的石家庄到深...

2017-07-22 00:19:00 14327

原创 MATLAB自定义公式拟合

这里我们简单介绍下MATLAB拟合工具箱中自定义公式的拟合。以颗粒物PM为例子，我们有这样的处理好的excel数据，PM（电压），RH，Ref（标准PM值）。以 Ref = PM/(a +b*(RH^2)/(1-RH))为我们的自定义公式，求系数a和b。复制excel变量到MATLABMATLAB拟合工具箱拟合...

2017-07-21 15:38:00 18833

原创关于样本标准差（SD）与样本标准误差（SE）

许多paper里经常能看到Mean±SD（SE）这样的表达方式，或者在图表里用SD或者SE来表示error bar，用SD的居多，但是也有不少用SE的。初学者很容易混淆SD（standard deviation）和SE（standard error）。SDSD我们都很清楚，是表达数据的离散程度，然后实际应用中很多数据具有近似正态分布的概率分布，有了SD...

2017-07-14 23:17:00 73424

原创为什么样本标准差分母为n-1

我们知道总体标准差（σ）是按照下面的公式来计算的：但是在真实世界中，找到一个总体的标准差是不现实的。大多数情况下，我们都是通过计算样本标准差（s）来估计总体标准差（σ）的。但是s的计算公式是这样的：分母为什么要（n-1）呢，而不是n？维基百科给出的解释有点费解：看过很多统计学的教程和问...

2017-07-13 17:15:00 7774

原创非线性关系用线性拟合和人工神经网络拟合的对比分析

实际应用中有很多非线性关系的变量很迷惑人，让人误用（多元）线性回归，这篇文章对比分析了线性回归和人工神经网络对这种变量的拟合，然后介绍下这种误用带来的后果，同时也会加深我们对人工神经网络的理解。一、多元线性回归（MLR）与人工神经网络（ANN）--有模式我们用数学上一个人人皆知的例子，矩形面积= 长*宽，假如一个研究人员不知道矩形面积与长和宽的关系，他...

2017-06-21 20:29:00 2888

原创 MATLAB神经网络简单预测--气体传感器

很多模式或关系不清晰的情况下，比较适合用神经网络。关于神经网络本身，最近发展的很快，应用也越来越广，自行谷歌。本文使用的为最为流行的前馈神经网络（feed-forward neural network），网络各层使用默认的Sigmoid函数，以气体传感器为例简单介绍下MATLAB神经网络工具箱的使用。我们有下面的数据原始电压CO_diff和温湿度（Te...

2017-06-14 21:27:00 2270

原创 Surfer绘制等值线图

本教程介绍如何用Surfer绘制如下效果的等值线图。（用GIS，Mapinfo也可以实现）其中，A1-A14为采样站位，该例子里红色区域为海域，放在陆地上一样的画，然后横坐标经度，纵坐标为维度。假如我们只有下面两个文件，数据文件data.xls和海岸线的bln文件渤海海岸线.bln，如下图，其中类似海岸线这种文件可以自己Surfer点取也...

2016-12-31 21:31:00 32023 5

原创 Excel批量自动处理数据——indirect与averageifs

在很多工作里，我们都会接触到大量固定格式的数据，大部分还可以用Excel打开，面对这些数据的处理，专业点的一般是编程处理，譬如matlab，Python和 R语言都是非常好用的。但是很多童鞋没接触过编程，也没时间学习或者对编程不感冒，所以我们今天介绍下用Excel批量处理下这样的数据，其思想与编程一样。1. 取自己想要的值indirect ()假如我们...

2016-12-14 00:03:00 2943

原创 Matlab—颜色图、簇状堆积柱状图和阴影Error Bar

Matlab里内置了很多绘图函数，也有很多开源的可以下载（Google很容易检索到）。这里介绍三种最近碰到的主要用于Paper里的几种图，有的可以用Excel绘制，但是相当繁琐，有那个时间去百度去谷歌，不如直接Matlab（或者其他很多工具像Origin，Suffer，R语言和Python等），写点code，一劳永逸。直入正题：1. 颜色图主要的函数是...

2016-12-12 19:55:00 7093

原创 Learn Markdown

这些只是一些简单的，基本上够用了；忘记了随时过来查。编辑图片大小直接更改最后一个数字即可

2016-12-12 12:51:00 183

呼呼的博客