数值型属性(一元)

集中趋势度量

均值

均值是某一随机变量的期望值,反映了X分布的位置或集中趋势。

鲁棒性

如果统计量不受数据中的极端值(例如离群值)的影响,那么就说该统计量是鲁棒的。

因此,样本均值并不具有鲁棒性,因为其非常容易受到样本极端数据的影响。为了使样本的鲁棒性更好,通常采用舍弃一小部分极端值的做法,称为切尾均值(trimmed mean)。

中位数

随机变量的中位数定义为一个值m,该值满足:
P ( X ≤ m ) ≥ 1 2 且 P ( X ≥ m ) ≥ 1 2 P(X\le m) \ge \dfrac{1}{2} \quad且\quad P(X\ge m)\ge \dfrac{1}{2} P(Xm)21P(Xm)21
因而中位数即分布函数最中间的值。可以看出,均值受极端值影响较小,且出现于样本中。

众数

随机变量的众数是对应概率密度函数达到最大值时X的值。
m o d e ( X ) = a r g m a x x f ^ ( x ) \mathrm{mode}(X)=\mathrm{arg}\underset{x}{\mathrm{max}}\hat{f}(x) mode(X)=argxmaxf^(x)
因此,众数并不能非常好反映样本集中的趋势。

离散度度量

极差

随机变量X的极差为X的最大值和最小值之间的差:
r = m a x { X } − m i n { X } r=\mathrm{max\{X\}}-\mathrm{min\{X\}} r=max{X}min{X}
需要注意的是,样本的极差是一个总体参数,与随机变量X的值域不同。
并且从极差定义,极差对于极端值很敏感,因此不鲁棒。

四分位差

四分位数(quartile)是分位数函数(随机变量X的逆CDF函数)的特殊值,将数据进行四等分,分别对应0.25、0.5、0.75、1的分位数值。

一个比较鲁棒的X离散度度量是四分位差(InterQuartile Range),定义为
I Q R = q 3 − q 1 = F − 1 ( 0.75 ) − F − 1 ( 0.25 ) \mathrm{IQR}=q_3-q_1=F^{-1}(0.75)-F^{-1}(0.25) IQR=q3q1=F1(0.75)F1(0.25)
IQR也被视为切边极差(Trimmed range),在其中舍弃了50%的数据,只保留了中间的数据。

方差和标准差

方差和标准差用来衡量X的取值偏离X均值的程度。标准差 σ \sigma σ为方差的正平方根。

### 如何使用Python实现一元线性回归预测模型 #### 所需库 为了构建并训练一元线性回归模型,通常会依赖于几个重要的Python库。这些库提供了必要的工具来加载数据集、执行统计运算以及绘制图表。 - **NumPy**: 提供多维数组对象支持及其派生的对象集合(如掩码数组和矩阵),并且能够快速操作存储在其中的数据[^1]。 - **Pandas**: 主要用于处理结构化表格型数据,在这里可以方便地读取CSV文件或者其他格式的数据源作为输入给算法。 - **Scikit-Learn (sklearn)**: 是一个简单有效的数据挖掘和数据分析库,内置了许多机器学习算法,其中包括线性回归模型。 - **Matplotlib/Seaborn**: 这两个图形库可以帮助直观展示结果,便于理解模型性能及特征间的关系。 #### 示例代码 下面是一段完整的Python程序,它展示了怎样利用上述提到的软件包来进行简单的单变量线性拟合: ```python import numpy as np from sklearn.linear_model import LinearRegression import matplotlib.pyplot as plt # 创建一些样本点 X = 2 * np.random.rand(100, 1) y = 4 + 3 * X + np.random.randn(100, 1) # 构建线性回归器实例 lin_reg = LinearRegression() # 训练模型 lin_reg.fit(X, y) print(f'截距项 b={lin_reg.intercept_[0]}') print(f'斜率 w=[{", ".join(map(str, lin_reg.coef_.flatten()))}]') # 绘制散点图与最佳拟合直线 plt.scatter(X, y, color='blue', label="Data Points") plt.plot(X, lin_reg.predict(X), color='red', linewidth=2., linestyle="-", label="Fitted Line") plt.title('Simple Univariate Linear Regression Example') plt.xlabel('Independent Variable') plt.ylabel('Dependent Variable') plt.legend() plt.show() ``` 这段脚本首先生成了一组随机分布的数据点,并假设它们遵循某种特定模式;接着创建了一个`LinearRegression()`类的新实例,并调用了其`.fit()`方法完成对这组数据的学习过程;最后通过绘图函数显示出了原始观测值的位置连同由我们的模型所得到的最佳匹配曲线。 #### 参数解释 在这个例子中,`intercept_`属性代表了当所有独立变量都等于零时因变量Y应该取什么数值——即所谓的“截距”。而`coef_`则给出了各个自变量前面对应着权重大小的一个列表,对于只含有单一维度的情况来说就是那个唯一的斜率值。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值