用pandas 和sklearn计算标准差、平均值，像字典一样读取pandas列

最新推荐文章于 2024-01-22 13:56:59 发布

lily_cai

最新推荐文章于 2024-01-22 13:56:59 发布

阅读量6.3k

点赞数 4

分类专栏： python

本文链接：https://blog.csdn.net/qq_41616600/article/details/102518680

版权

python 专栏收录该内容

47 篇文章 2 订阅

订阅专栏

一、用pandas 计算标准差、平均值

用到的是sklearn 的 mean_和var_属性

import pandas as pd
from sklearn import preprocessing

csv_data = pd.read_csv('mycsv.csv')


# 计算原始数据每行和每列的均值和方差，data是多维数据
scaler = preprocessing.StandardScaler().fit(csv_data)
#得到每列的平均值,是一维数组
mean = scaler.mean_
#得到每列的标准差,是一维数组
std = scaler.var_
#标准化数据
data_nomal = scaler.transform(csv_data)

最后算出的平均值和标准差是numpy array格式的

二、像字典一样读取pandas列

import pandas as pd
csv_data = pd.read_csv('mycsv.csv')

print(csv_data['mylie'])

csv种的mylie这一列就会被读出，是series对象，可以强制转换成list，那就可以用list的各种方法了。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lily_cai

关注关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

sklearn中StandardScaler()

qq_47175528的博客

12-03

2万+

一、数学公式： 1.均值、去均值： (1) 均值：对每个特征求均值,即对每列求均值。 import numpy as np data = np.array([[1, 2], [4, 3]]) print('数组为：\n', data) mean = data.mean(axis=0) print('均值为：\n', mean) # 结果为数组为： [[1 2] [4 3]] 均值为： [2.5 2.5] （2）去均值：每个特征的值减去对应特征的均值。 move_m

pandas 取excel 中的某一列_不识 Pandas，纵是老手也枉然？

weixin_39762666的博客

11-18

1246

作者 |周志鹏责编 | 郭芮这段时间和一些做数据分析的同学闲聊，我发现数据分析技能入门阶段存在一个普遍性的问题，很多凭着兴趣入坑的同学，都能够很快熟悉Python基础语法，然后不约而同的一头扎进《利用Python进行数据分析》这本经典之中，硬着头皮啃完之后，好像自己什么都会了一点，然而实际操作起来既不知从何操起，又漏洞百出。至于原因嘛，理解不够，实践不够是两条老牌的拦路虎，只能靠...

参与评论您还未登录，请先登录后发表或查看评论

pandas中计算总体标准差

weixin_30697239的博客

05-12

4250

标准差（或方差），分为总体标准差（方差）和样本标准差（方差）。前者分母为n，后者为n-1。后者是无偏的。 pandas里的 .std() 和.var()都是算的无偏的。而numpy是有偏的。那么在pandas里想算有偏的（即总体标准差或总体方差），怎么做？ https://github.com/pydata/pandas/issues/1798 参考这里。 ...

Pandas.Series.std() 标准差 详解含代码含测试数据集随Pandas版本持续更新

最新发布

数象限

01-22

1703

本文基于 pandas2.2.0 编写。随着pandas的stable版本更迭，本文持续更新，不断完善补充。

Pandas DataFrame考虑了贝塞尔校正（计算标准差时）

XP1990的专栏

05-09

762

linux 计算标准差,5-pandas基础运算

weixin_32795125的博客

05-16

229

#encoding:utf8import pandas as pdimport numpy as nps = pd.Series([1,2,3,4,5],index=list('acefh'))print(s)'''a 1c 2e 3f 4h 5'''print(s.index)'''Index(['a', 'c', 'e', 'f', 'h'], dtype='ob...

pandas库计算均数和标准差

08-17

- *1* [使用numpy和pandas计算平均值、方差、标准差](https://blog.csdn.net/weixin_43914402/article/details/120801216)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":...

pandas基础——文件读取与写入、基本数据结构、常用基本函数、排序、总结练习

12-21

4. `info()`和`describe()`：提供数据集的简要信息，如非空值计数、平均值、标准差等统计量。 5. `idxmax()`、`idxmin()`、`nlargest()`和`nsmallest()`：找到最大值、最小值的索引，以及最大/小的n个元素。 6. `...

pandas 取excel 中的某一列_干货Python Pandas 做数据分析之玩转 Excel 报表分析

weixin_39517241的博客

11-20

6077

本篇文章选自作者在 GitChat 的分享，若有什么问题，可在公众号回复「小助手」添加小助手微信，邀请你进入技术交流群。各位朋友大家好，非常荣幸和大家聊一聊用 Python Pandas 处理 Excel 数据的话题。因为工作中一直在用 Pandas，所以积累了一些小技巧，在此借 GitChat 平台和大家分享一下心得。在开始之前我推荐大家下载使用 Anaconda，里面包含了 Spyd...

python数据分析及可视化（六）Pandas的对齐运算、混合运算、统计函数、排序函数、处理缺失值及数据的存储与读取

hwwaizs的博客

08-11

1926

python数据分析及可视化（六）Pandas的对齐运算、混合运算、统计函数、排序函数、检测、删除、填充缺失值及数据的存储与读取

python+sklearn实现K均值算法（聚类第一篇）

weixin_45081640的博客

06-22

1087

本文所用文件的链接链接：https://pan.baidu.com/s/1RWNVHuXMQleOrEi5vig_bQ 提取码：p57s 聚类分类(class) 与聚类 (cluster) 不同, 分类属于有监督学习, 聚类属于无监督学习模型. 聚类讲究使用一些算法把样本划分为n个群落. 一般情况下,这种算法都需要计算欧氏距离. 欧氏距离(欧几里得距离): P(x1)−P(x2):∣x1−x2∣=(x1−x2)2p(x1,y1)−p(x2,y2):(x1−x2)2+(y1−y2)2p(x1,y1,z

python 计算均值、方差、标准差 Numpy，Pandas

DEVELOPERAA的博客

07-26

1万+

Python 中的 numpy 包和 pandas 包都能够计算均值、方差等，本文总结一下它们的用法。

python、sklearn实现计算均方误差（MSE）、平均绝对误差（MAE）、决定系数（R2）、调整后的决定系数、皮尔逊相关系数

任尔东西

03-14

4万+

from sklearn.metrics import mean_squared_error # 均方误差 from sklearn.metrics import mean_absolute_error # 平方绝对误差 from sklearn.metrics import r2_score # R square # 调整后的R square def adj_r_squared(x_test,y...

sklearn中的数据预处理和特征工程----【3】方差过滤

weixin_52103757的博客

06-10

907

Feature Engineering【VarianceThreshold】 Feature Extraction 从文字，图像，声音等其他非结构化数据提取新信息作为特征 Feature Creation 已有的特征进行组合，或者相互计算，得到新的特征 Feature Selection 从所有特征中选择出有意义的，对模型有帮助的特征达到降低计算成本的效果 Step **step1 理解业务：**根据常识对项目的数据进行判断相关性从而理解数据无法理解特征过滤嵌入包装降

python计算平均年龄_如何使用Pandas在Python中取得多年平均值

weixin_39575775的博客

12-04

2385

首先,根据熊猫时间戳记创建一列：df = df.dropna()df['date'] = df.apply(lambda x: pd.Timestamp('{year}-{month}-{day}'.format(year=int(x.Year),month=int(x.Month),day=int(x.Day))),axis=1)接下来,根据纬度和经度的元组对设置位置.df['Location'...

数据预处理(七)——利用sklearn进行数据预处理

shi_jiaye的博客

08-05

1980

主要内容：数据预处理的必要性数据清洗数据集成数据标准化数据规约数据变换与离散化利用sklearn进行数据预处理

Python 学习笔记之——用 sklearn 对数据进行预处理

weixin_34101229的博客

11-25

165

1. 标准化标准化是为了让数据服从一个零均值和单位方差的标准正态分布。也即针对一个均值为 标准差为的向量中的每个值，有。 >>> from sklearn import preprocessing >>> import numpy as np >>> X_train = np.array([[ 1., -1., 2.], ....

使用sklearn进行对数据标准化、归一化以及将数据还原