算法!!!
薛定谔的DBA
这个作者很懒,什么都没留下…
展开
-
Python 卡方检验
卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。(更多参考:卡方检验、卡方分布) 不讲过多理论,主要使用 python 实现卡方验证。之前对于元素/特征/属性 异常值的选择情况,可以使用直方图、箱型图、Z分数法等筛选。如原创 2018-01-14 08:57:11 · 31933 阅读 · 1 评论 -
Python 探索性数据分析(Exploratory Data Analysis,EDA)
探索性数据分析,主要针对原始数据进行初次了解。了解数据的分布情况、了解分析的方向灯。此脚本读取的是 SQL Server ,只需给定表名或视图名称,如果有数据,将输出每个字段符合要求的每张数据分布图。# -*- coding: UTF-8 -*-# python 3.5.0# 探索性数据分析(Exploratory Data Analysis,EDA)__author__ = '原创 2018-01-12 16:30:12 · 1878 阅读 · 0 评论 -
WOE、VI 分类变量预测能力
原始数据,如按年龄离散化 。首先元素各值频数的分布。 WOE(Weight of Evidence)反映了自变量对因变量的预测能力。IV(Information Value)在预测模型中选择最重要的变量是最有用的技术之一。用于根据变量的重要性排列变量。 简化:结果: IV 值经验规则: IV原创 2018-01-14 18:25:07 · 1497 阅读 · 0 评论 -
Python 确定多项式拟合/回归的阶数
通过 1至10 阶来拟合对比 均方误差及R评分,可以确定最优的“最大阶数”。import numpy as npimport matplotlib.pyplot as pltfrom sklearn.preprocessing import PolynomialFeaturesfrom sklearn.linear_model import LinearRegression,Perc原创 2018-01-31 12:20:31 · 11712 阅读 · 1 评论 -
Python 多项式拟合(一元回归)
一元一阶线性拟合:假设存在一条线性函数尽量能满足所有的点:y=ax+b .对所有点的的公式为: 残差值β = 实际值y - 估计值y,β 应尽量小,当 β = 0 时,则完全符合一元线性方程:y=ax+b 通过最小二乘法计算残差和最小: 根据微积分,当 Q 对 a、b 的一阶偏导数为了0时,Q 达到最小。原创 2018-01-26 13:52:59 · 2552 阅读 · 0 评论 -
Python 普通最小二乘法(OLS)进行多项式拟合
多元函数拟合。如 电视机和收音机价格多销售额的影响,此时自变量有两个。python 解法:import numpy as npimport pandas as pd#import statsmodels.api as sm #方法一import statsmodels.formula.api as smf #方法二import matplotlib.pyplot as plt原创 2018-01-31 18:29:14 · 76533 阅读 · 7 评论 -
决策树构建
信息熵:生活中的所见所闻,都接触到许许多多的信息,有的信息对我们有用,有的无用。如 “地球是自转的”,这条信息对我们没什么用,因为我们都知道,而且是确确实实是这样的。香农用信息熵的概念来描述信源的不确定度,变量的不确定性越大,熵也就越大。 在某个事件中,如果不发生的概率为0,那么可以确定信息熵为0,当发生的概率为1时,属于确定性事件,同样信息熵为0。只有当发生的概率为0.5原创 2018-02-06 18:29:56 · 654 阅读 · 0 评论