![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析与数据挖掘
reb0rn初代
弃疗吧
展开
-
IndexError: boolean index did not match indexed array along dimension 0; dimension is 9 but correspo
对某银行在降低贷款拖欠率的数据进行逻辑回归建模(python数据分析与挖掘实战 5-1)import pandas as pd#参数初始化filename = r'E:\python\《Python数据分析与挖掘实战》\Python数据分析与挖掘实战\chapter5\demo\data\bankloan.xls'data = pd.read_excel(filename)x = d...原创 2019-10-22 17:31:14 · 8751 阅读 · 0 评论 -
pandas之GroupBy分割、应用、组合
1、pandas的累计方法指标 描述 count() 计数项 first()、last() 第一项与最后一项 mean()、median() 均值与中位数 min()、max() 最小值与最大值 std()、var() 标准差与方差 mad() 均值绝对偏差 prod() 所有项乘积 sum() 所有项求和...原创 2019-10-14 15:20:22 · 825 阅读 · 0 评论 -
pandas字符串操作
1、字符串对象方法对于大部分字符串处理应用而言,内置的字符串方法已经能够满足要求了。(1)split 以逗号分隔的字符串可以用split拆分成数段val = 'a,b,guido'val.split(',')Out[3]: ['a', 'b', 'guido'](2)strip split结合strip(用于修剪空白符(包括换行符))一起使用:pie...原创 2019-10-10 18:01:09 · 822 阅读 · 0 评论 -
统计作图函数(和matplotlib、pandas)
Python主要统计作图函数 作图函数名 作图函数功能 所属工具箱 plot() 绘制线性二维图,折线图 Matplotlib/Pandas pie() 绘制饼形图 Matplotlib/Pandas hist() 绘制二维条形直方图,可显示数据的分配情形 Matplotlib/Pandas boxplo...原创 2019-10-09 14:50:38 · 654 阅读 · 0 评论 -
利用Python进行数据分析之pandas数据转换(去重、替换、重命名、离散化和面元划分、检测和过滤异常值、排列和随机采样、计算指标/哑变量等)
1、移除重复数据(1)duplicated显示重复行(默认判断全部列)data.duplicated()Out[18]: 0 False1 True2 False3 False4 True5 False6 Truedtype: bool(2)drop_duplicates用于返回一个移除了重复行‘的DataFrame(...原创 2019-09-17 16:50:09 · 1191 阅读 · 0 评论 -
pandas之重塑和轴向旋转
重塑和轴向旋转 用于重新排列表格型数据的基础运算。对于DataFrame,主要功能有:(1)stack:将数据的列“旋转”为行 (2)unstack:将数据的行“旋转”为列例1:(其中行列索引均为字符串)data = DataFrame(np.arange(6).reshape((2,3)),index=pd.Index(['O','C'],name='state...原创 2019-09-17 11:21:56 · 272 阅读 · 0 评论 -
利用python进行数据分析之pandas汇总和计算描述统计、相关系数与协方差、唯一值、值计数、成员资格
1、描述性统计分析(1)跟对应的NumPy相比,t他们都是基于没有缺失数据的假设而构建的。df = DataFrame([[1.4,np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],index = ['a','b','c','d'], columns=['one','two'])dfOut[53]: ...原创 2019-09-10 20:45:22 · 607 阅读 · 0 评论 -
利用python进行数据分析之pandas处理缺失数据
1、前记pandas对象上的所有描述统计都排除了缺失数据,使用浮点值NaN表示浮点和非浮点数组中的缺失数据。string_data = Series(['aa','ar',np.nan,'avo'])string_dataOut[27]: 0 aa1 ar2 NaN3 avodtype: objectstring_data.isnull()...原创 2019-09-10 19:50:37 · 366 阅读 · 0 评论 -
Pandas基本功能之算数运算和数据对齐、函数应用和映射、排序、排名
1、算术运算和数据对齐(1)对不同索引的对象进行算数运算在将对象相加时,如果存在不同的索引对,则结果的索引就是该索引对的并集。s1 = Series([7,2,-2,4],index=['a','b','c','d'])s2 = Series([-2,3,-1,4,3],index=['a','b','c','f','g'])s1s2s1+s2Out[17]: a ...原创 2019-09-09 18:33:00 · 284 阅读 · 0 评论 -
Python数据分析之pandas的数据结构
1、Series(1)简介Series是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。仅由一组数据即可产生最简单的Series:obj = pd.Series([4,7,-5,3])objOut[16]: 0 41 72 -53 3dtype: int64(2)Series的字符串表...原创 2019-09-05 14:45:57 · 175 阅读 · 0 评论 -
python数据分析之NumPy与线性代数、随机数生成、随机漫步
1、线性代数线性代数(如矩阵乘法、矩阵分解、行列式以及其他方阵数学等)是任何数组库的重要组成部分。提供了一个用于矩阵乘法的dot函数(既是一个数组方法也是numpy命名空间中的一个函数):x = np.array([[1,2,3],[4,5,6]])y = np.array([[6.,23.],[-1,7],[8,9]])xOut[28]: array([[1, 2, 3],...原创 2019-09-03 17:17:45 · 779 阅读 · 0 评论 -
Python数据分析之Numpy用于数组的文件输入输出
1、CSV文件CSV(Comma-Separated Value,逗号分隔值),一种常见的文件格式,用来存储批量数据。(1)np.savetxt np.loadtxtnp.savetxt(frame,array,fmt='%.18e',delimiter=None) #存储——frame:文件、字符串或产生器,可以是.gz或.bz2的压缩文件——array:存入文件的...原创 2019-09-03 14:11:18 · 444 阅读 · 0 评论 -
NumPy聚合(最小值、最大值和其他值)
1、数组值求和先来看一个小例子, 设想计算一个数组中所有元素的和。 Python 本身可用内置的 sum 函数来实现:In[1]: import numpy as npIn[2]: L = np.random.random(100)sum(L)Out[2]: 55.61209116604941它的语法和 NumPy 的 sum 函数非常相似, 并且在这个简单的例子中的结果也是一...原创 2019-08-29 17:42:27 · 4886 阅读 · 0 评论 -
Python数据分析之NumPy数组的计算(通用函数、排序等)
1、通用函数NumPy提供了一个简单灵活的接口来优化数据数组的计算。使NumPy变快的关键是利用向量化操作,通常在NumPy的通用函数中实现。可以通过简单对数组执行操作来实现,这里对数组的操作会被用于数组中的每一个元素,这种向量方法被用于将循环推送至NumPy之下的 编译层,这样会取得更快的执行效率。NumPy实现的算术运算符运算符 对应的通用函数 描述 + np...原创 2019-08-28 18:01:37 · 2300 阅读 · 0 评论 -
numpy库数组基础详解(创建方法、数组转换、索引、切片、变形、拼接、分裂等)
前记~IPython的%run命令 常用命令 说明 %magic 显示所有魔术命令 %hist IPython命令的输入历史 %pdb 异常发生后自动进入调试器 %reset 删除当前命令空间中的全部变量或名称 %who 显示IPython当前...原创 2019-08-13 18:12:35 · 1233 阅读 · 0 评论