python数据处理
文章平均质量分 69
T1.Faker
此人很懒,什么都没有写
展开
-
Python itertools教程(python中的迭代器与组合迭代器)
当谈到在Python中优雅地处理迭代任务时,itertools库是一个不可或缺的工具。这个强大的库提供了一系列用于创建、操作和合并迭代器的函数,能够让你的代码更加紧凑、高效,并且更易于阅读和维护。无论是解决排列组合问题、处理无限序列,还是简化循环结构,itertools都能够成为你的得力助手。原创 2023-08-28 16:51:30 · 688 阅读 · 2 评论 -
python数据分析 - 卡方检验
卡方检验1.卡方检验2.独立性卡方检验与一致性卡方检验2.1 独立性卡方检验2.1.1 python独立性卡方检验2.2 一致性卡方检验3.正态分布卡方检验3.1 python正态分布卡方检验1.卡方检验卡方检验也属于假设检验的一种即可以分析一个变量的拟合程度,如拟合优度检验(二项分布、泊松分布和正态分布),即可以分析数据是不是正态分布,在做T检验的时候(前提条件就是数据要符合正态分布)。还可以用来分析两个变量间的关系:是否相互独立,是否来自一个总体。2.独立性卡方检验与一致性卡方检验对于两个变原创 2022-04-20 16:38:38 · 26811 阅读 · 6 评论 -
python数据分析 - 关联规则Apriori算法
关联规则Apriori算法导语mlxtend实现Apriori算法导语关联规则:是反映一个事物与其他事物之间的相互依存性和关联性常用于实体商店或在线电商的推荐系统:通过对顾客的购买记录数据库进行关联规则挖掘,最终目的是发现顾客群体的购买习惯的内在共性,例如购买产品A的同时也连带购买产品B的概率,根据挖掘结果,调整货架的布局陈列、设计促销组合方案,实现销量的提升,最经典的应用案例莫过于<啤酒和尿布>。关联规则分析中的关键概念包括:支持度(Support)、置信度(Confidence)与提原创 2022-04-14 11:56:37 · 7697 阅读 · 4 评论 -
python数据分析 - 如何探索数据
python数据分析1.数据的组成1.1 非结构化数据1.2 结构化数据1.3 矩形数据1.4 非矩形数据2.位置估计2.1 均值2.2 中位数和稳健估计量3.变异性估计3.1 标准偏差及相关估计值3.2 基于百分位数的估计量4.数据分布4.1 百分位数和箱型图4.2 频数表和直方图4.3 密度估计4.4 二元数据和分类数据4.4.1 众数4.4.2 期望值5.相关性5.1 相关系数5.2 相关矩阵5.3 散点图6.多变量分析6.1 六边形图和等势线(适用于两个数值型变量)6.2 多个变量的可视化1.数据原创 2022-04-12 11:39:53 · 4857 阅读 · 0 评论 -
python数据分析 - 数据降维PCA
python数据分析 - 数据降维1.PCA最大可分性的思想2.基变换3.方差4.协方差5.协方差矩阵6.协方差矩阵对角化7.PCA算法流程8.PCA实例大概主成分分析(Principal components analysis,以下简称PCA)是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。一般我们提到降维最容易想到的算法就是PCA,下面我们就对PCA的原理做一个总结。首先考虑一个问题:对于正交属性空间中的样本点,如何用一个超平面(直线的高维推广)对所有样本进行恰当的表达原创 2022-04-08 15:53:33 · 1738 阅读 · 0 评论 -
python数据处理与分析(汇总)
python结构化数据 数据处理与分析导语我们所面临的数据1.读取数据2.审视数据2.1 整体2.2 局部(单行、列,多行、列)3.数据类型,字段更改3.1 字符类(object)处理3.2 时间数据(datetime)处理3.3 数据类型(float,int)处理3.4 colums,index改变4.缺失值处理4.1 查看缺失值情况4.2 删除缺失值4.3 填充缺失值 - 简单填充4.4 填充缺失值 - 随机森林回归填充python实例5.重复值6.异常值6.1 业务的异常值6.2 异常检测算法7.根据原创 2022-03-08 14:11:55 · 5812 阅读 · 0 评论 -
最常用的异常检测方法
异常检测方法1.什么是异常/异常值2.异常值的作用3.异常值检测方法3.1 标准差3.2 箱体图箱体图解析3.3 DBScan聚类3.4 孤立森林3.5 随机森林1.什么是异常/异常值在统计学中,离群值是不属于某个总体的数据点,它是一种与其他值相差甚远的异常观察,是一种与其他结构良好的数据不同的观察值。例如,您可以清楚地看到列表中的异常值:[20,24,22,19,29,184300,30,18]当观察值只是一组数字并且是一维时,很容易识别它,但是当你有数千个观察值或多维值时,你需要更聪明的方法来检原创 2021-09-20 21:52:10 · 1411 阅读 · 0 评论 -
通俗图解NumPy数据处理方法
NumPy1.向量-一维数组1.1 初始化1.1.1 向量初始化1.1.2 其他初始化向量方法1.1.3 序列数组初始化1.1.4 随机数组初始化1.2 向量索引1.3 向量操作2.矩阵-二维数组2.1 矩阵初始化2.2 轴参数2.3 行向量与列向量2.4 矩阵操作2.5 Meshgrids2.6 矩阵统计2.7 矩阵排序3.三维数组(更高数组)原文链接:https://www.yanxishe.com/TextTranslation/3198个人认为也是一个很好的学习网站1.向量-一维数组1.1原创 2021-08-17 14:07:45 · 1542 阅读 · 4 评论 -
计算机视觉PyTorch - 数据处理(库数据和训练自己的数据)
pytorch实现图像分类数据处理1. pytorch库自带数据数据预处理数据生成数据加载2. 训练自己的数据生成数据集数据预处理数据加载1. pytorch库自带数据为了更好的理解,这里以CIFAR10数据集作为训练和测试数据集。我们将使用CIFAR10数据集,它包含十个类别:[‘airplane’, ‘automobile’, ‘bird’, ‘cat’, ‘deer’, ‘dog’, ‘frog’, ‘horse’, ‘ship’, ‘truck’]。CIFAR-10 中的图像尺寸为3x32原创 2021-08-04 16:56:40 · 1614 阅读 · 2 评论 -
计算机视觉 - argparse库使用
前言在构建神经网络过程中,常常需要修改神经网络的超参数,比如说训练样本的批次大小、学习率等。为了方便参数修改,可以通过命令行来传递这些超参数。argparseargparse是python用于解析命令行参数和选项的标准模块,用于代替已经过时的optparse模块。argparse模块的作用是用于解析命令行参数。大白话说就是可以通过argparse配置程序中运行的相应参数。并可以在终端使用命令行的形式给程序命令行添加对应的参数来运行程序。给程序配置argparse通常分为四个步骤:导入模块 im原创 2021-07-30 14:15:01 · 867 阅读 · 0 评论 -
Python 数据科学 - python基础
python基础1.变量与数据类型变量赋值>>> x=5>>> x5变量计算>>> x=5>>> x+2 #加7>>> x-2 #减3>>> x*2 #乘10>>> x%2 #取余1>>> x/float(2) #除2.5类型与类型转换#转为字符串str()#转为整数int()#转为浮点数flo原创 2021-07-26 23:21:47 · 140 阅读 · 0 评论 -
python pandas时间操作函数
代码数据集:通过上图数据集,使用如下三个时间操作函数进行演示。to_datetime()DateOffset()Datetimeindex()1 pd.to_datetime()功能:将str和unicode转化为指定时间戳格式time=pd.to_datetime('2021-06-10 12:00:00',format='%Y/%m/%d %H:%M:%S')time:2021/06/10 12:00:002 pd.DateOffset()功能:时间戳的加减参数:mon原创 2021-06-10 11:51:17 · 755 阅读 · 0 评论 -
pandas中set_index、reset_index区别
1.set_index()作用:DataFrame可以通过set_index方法,将普通列设置为单索引/复合索引格式:DataFrame.set_index(key,drop=True,append=False,verify_intergrity=False)import pandas as pddf=pd.DataFrame({'A':['0','1','2','3'], 'B':['4','5','6','7'], 'C':原创 2021-04-29 09:25:03 · 418 阅读 · 0 评论 -
python异常处理
python异常处理try/except_else普通异常处理try: fh=open("testfile","w") fh.write("这是个测试文件")except IOError: print "Error:没有找到文件或读取文件失败"else: print "内容写入文件成功" fh.close()try-finally:语句无论是否发生异常都将执行最后的代码try: fh=open("testfile","w") fh.原创 2021-04-28 10:01:01 · 118 阅读 · 1 评论 -
python数据科学应用
使用字典对象word_dict={}for word in sentence.split(): if word not in word_dict: word_dict[word]=1 else: word_dict[word]+=1for word in sentence.split(): word_dict.setdefault(word,0) word_dict[word]+=1word_dict=defaultdict(int)原创 2021-04-27 17:27:54 · 216 阅读 · 0 评论 -
数据分析
numpy数组操作创建维数组m=np.array([np.arange(2),np.arange(2)])选择numpy数组元素numpy数值类型np.float64(42)np.int8(42.0)np.bool(42)np.bool(0)np.bool(42.0)np.float(True)np.float(Flase)数据类型对象一维切片和索引a=np.arange(9)a[3:7]out:array([3,4,5,6])a[:7:2]out:array([0,原创 2021-04-27 15:39:23 · 160 阅读 · 1 评论 -
python r、b、u、f 含义
字符串前加rr“”的作用是去除转义字符,简单说,就是“”中是看到的是啥,最后打印出的就是啥str1='input\n'str2=r'imput\n'print(str1,str2)>>input input\n字符串前加bb"的作用表示‘’里的字符串为字节对象,即bytes类型字符串前加uu’‘的作用对’‘的字符串进行unicode格式编码,主要用途在中文字符串中’字符串前加ff’'作用表示字符串内支持大括号{}内python表达式name=timiprint(原创 2021-04-23 17:34:25 · 455 阅读 · 0 评论 -
python os
python os.path() 模块方法说明os.path.abspath(path)返回绝对路径os.path.basename(path)返回文件名os.path.dirname(path)返回文件路径os.path.exists(path)如果路径 path 存在,返回 True;如果路径 path 不存在,返回 False。os.path.join(path1[, path2[, …]])把目录和文件名合成一个路径os.path.spl原创 2021-04-19 16:02:55 · 111 阅读 · 0 评论 -
python
python正则表达式1.re.match(pattern,string,flags=0)参数描述pattern匹配正则表达式string–要匹配的字符串–flags–匹配方式:是否大小写,多行匹配–re.match().span() 匹配字符串在字符中对应的位置2.re.search(pattern,string,flags=0)参数描述pattern匹配正则表达式string–要匹配的字符串–原创 2021-04-19 14:26:59 · 132 阅读 · 0 评论