分析pandas的数据，分析某一列数据的长度分布等等

最新推荐文章于 2024-07-01 18:10:02 发布

SU_G

最新推荐文章于 2024-07-01 18:10:02 发布

阅读量3.2k

点赞数 2

分类专栏：笔记文章标签：数据分析 python

本文链接：https://blog.csdn.net/qq_34181296/article/details/109298605

版权

笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

"""

分析数据

————如分析sku的长度

"""

import pandas as pd

import numpy as np

data_file='./data/data_zh/sku_80k.csv' #待分析的文件

def ana_len(file,key=None):

"""

分析某一字段的长度分布

:param file: 要分析的文件

:param key: 要分析的字段

:return:

"""

key_len=key+"_len"

data=pd.read_csv(data_file,nrows=None)

data[key_len]=data[key].apply(len)

#percentiles指定排前%的取值，默认值是25 45 75

print( data[key_len].describe(percentiles=[0.1,0.25,0.75,0.8,0.9,0.95,0.999]))

# 中位数

print(data[key_len].median())

print(data[key_len].value_counts()) #

return 0

if __name__=="__main__":

ana_len(data_file,key="k_text")

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

SU_G

关注关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python获取列表长度方法_python - 在Pandas df列中获取有关列表长度（平均长度，最大长度等）的统计信息的大多数pandas-onic方法 - 堆栈内存溢出...

weixin_39719127的博客

12-17

2958

我想获取有关pandas df列中列表长度的统计信息，例如平均长度，最低，最高，标准差等。例：import pandas as pddfp = pd.DataFrame({'trial_num': [[1, 2, 3, 1, 2, 3], [3,4,6,7], [2,2]],'subject': [[11, 2, 2, 2],[2,2,7],[4]]})dfp输出：trial_num subj...

【Pandas】Pandas求某列字符串的长度，总结经验教训

最新发布

MAOZI8的博客

07-01

565

本文主要介绍如何使用df.mean()df.sum()df.max(), 和df.min()。

pandas中强大的绘制图表功能——DataFrame.hist()能简单迅速的画出某一列中的值的分布直方图

weixin_43668299的博客

08-21

6499

DataFrame.hist() hist()函数，能简单迅速的画出某一列中的值的分布直方图 hist()的参数中要加入需要分布的某一列。

pandas 统计某个字段的数值分布（把空值的数量也显示出来）

yuxeaotao的博客

01-14

1万+

data.flag.value_counts(dropna=False)

python统计数据库分数段人数_pd.DataFrame统计各列数值多少的实例

weixin_39791446的博客

12-06

1334

如下所示：.count() #非空元素计算.min() a #最小值.max() #最大值.idxmin() #最小值的位置，类似于R中的which.min函数.idxmax() #最大值的位置，类似于R中的which.max函数.quantile(0.75) #75%分位数.sum() #求和.mean() #均值.median() #中位数.mode() #...

pandas 数据分析 相关性_pandas数据分析

weixin_34338129的博客

01-14

2303

pandas创建文件DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型(数值、字符串、布尔值等)。DataFrame既有行索引也有列索引，它可以被看做由series组成的字典(共用同一个索引)set_index( ) 将 DataFrame 中的列转化为行索引。默认的，当列变成行索引之后，原来的列就没了，但是可以通过设置drop来保留原来的列。to_excel()...

pandas 取excel 中的某一列_不识 Pandas，纵是老手也枉然？

weixin_39762666的博客

11-18

1246

作者 |周志鹏责编 | 郭芮这段时间和一些做数据分析的同学闲聊，我发现数据分析技能入门阶段存在一个普遍性的问题，很多凭着兴趣入坑的同学，都能够很快熟悉Python基础语法，然后不约而同的一头扎进《利用Python进行数据分析》这本经典之中，硬着头皮啃完之后，好像自己什么都会了一点，然而实际操作起来既不知从何操起，又漏洞百出。至于原因嘛，理解不够，实践不够是两条老牌的拦路虎，只能靠...

Pandas数据结构分析

m0_58387972的博客

03-06

7703

pandas -- 对series和dataframe的创建、添加、修改、删除

pandas打印某一列_2. Python--pandas库

weixin_39782752的博客

11-19

1784

》》点赞，收藏+关注，理财&技术不迷路《《目录：pandas = numpy + 标签索引如果用 python 的列表和字典来作比较, 那么可以说 Numpy 是列表形式的，没有数值标签，而，有数值标签。Pandas是基于Numpy构建的，让Numpy为中心的应用变得更加简单。要使用pandas，首先需要了解他主要两个数据结构：Series和DataFrame。Pandas是Python的...

Python数据分析之pandas库的使用详解

qq_46292926的博客

09-17

2035

本篇文章目录一、前言二、什么是pandas三、pandas安装四、pandas的常用数据类型4.1 series：表示一维，带标签数组，一行或一列4.1.1创建series4.1.2 打印索引值4.1.3 打印数据值4.1.3 创建一个具有标签索引的series4.1.4 使用python字典创建series4.1.5 根据索引值查询数据4.2 DataFrame：表示二维，多行多列五、数据的读取......

Python_Pandas_获取数据分布情况和相关系数

feizuiku0116的博客

08-18

7129

一.获取数据分布情况描述 pandas模块中的describe()函数可以按列获取数据表中所有数值数据的分布情况，包括数据的个数、均值、最值、方差、分位数等用法和参数 DataFrame.describe() 实例 import pandas as pd data = pd.read_excel('产品统计表.xlsx') # 查看整个数据表的数据分布情况 print(data.describe()) ''' 成本价(元/个) 销售价(元/个) 数量(个) 成本(元)

pandas使用len函数和max函数计算dataframe中指定字符串数据列中字符串的最大长度（length of the longest string in a column）

data+scenario+science+insight

01-30

5236

pandas使用len函数和max函数计算dataframe中指定字符串数据列中字符串的最大长度（length of the longest string in a column）

pandas对文本数据进行长度统计

Q_M_X_D_D_的博客

02-15

951

在NLP的各项任务中，都需要对语料的长度有一个概括性的了解，例如平均长度、最大长度，大多数语料的长度范围等，以此来确定输入模型时的最大文本长度。pandas库有一种写法可以快速的统计文本语料的长度情况。

pandas获取数据集数据类型分布（更细粒度的分割）

RuGe_Lee的博客

03-05

2226

方法一：pandas_profiling输出分析以泰坦尼克号数据集为例，如果只是康康然后疯狂复制粘贴的话那没啥，但是如果想全流程自动化，就要把ProfileReport的结果用到接下来的数据处理中，不妨把结果输出到json文件。 from pandas_profiling import ProfileReport import pandas as pd df = pd.read_csv('train.csv',index_col=['PassengerId']) report = ProfileR

【阶段二】Python数据分析Pandas工具使用08篇：探索性数据分析：数据的描述：数据的分散趋势与数据的分布形态

张陈亚的博客

01-04

492

Python数据分析Pandas工具使用08篇：探索性数据分析：数据的描述：数据的分散趋势与数据的分布形态

pandas数据汇总记录

qq_31955775的博客

09-19

1072

问题分类统计各个类中的数据分布情况 matplotlib画图时x坐标刻度问题 1、分类统计各个类中的数据分布情况想要统计DataFrame两列的信息，例如 A 0 B 0 A 0 B 1 A 0 B 0 A 1 B 0 B 1 得到的结果为A与B中0和1的个数A{0:3,1:1} B{0:3,1:2} from collections import Counter dic

pandas选取一列画直方图

pywin

09-02

1万+

#-*- coding:utf-8 -*- import pandas as pd import numpy as np df=pd.DataFrame(np.random.rand(100,4),columns=list('abcd')) d=df['a'].hist().get_figure() d.savefig('2.jpg')结果：

python设置时间步长与时间离散格式_在python pandas datafram中添加时间序列强度的廉价方法...

weixin_39545310的博客

02-04

288

我试图从使用Python的不同时间更改状态的函数中求和(并绘制)总数熊猫.DataFrame. 例如：假设我们有3个人，他们的状态可以是a)什么都不拿，b)拿着5磅的重量，c)拿着10磅的重量。随着时间的推移，这些人拿起重物放下。我想画出总重量。因此，考虑到：我的暴力赎罪尝试：import pandas as psimport mathimport numpy as npperson1=[3,0,...