数据分析
文章平均质量分 88
么心learning
nothing
展开
-
Pandas高级:query方法教你优雅的查询
好久好久没写博客了。最近看到个很实用的pandas方法,记录下。query()DataFrame.query(expr,inplace=False,**kwargs),用于通过boolean表达式来查询dataframe中的列。主要参数为expr,它是字符串表达式,有如下说明:要评估的查询字符串。可以在环境中引用变量,方法是在变量前添加一个@字符,例如@a + b。可以在反引号内将包含空格或运算符的列名引用起来。 这样,您还可以转义以数字开头或Python关键字的名称。 基本上是..原创 2020-12-19 12:50:32 · 12729 阅读 · 10 评论 -
Python可视化:一文玩转Seaborn数据可视化
Seaborn是一个用Python制作统计图形的库。 它建立在matplotlib之上,并与pandas数据结构紧密集成,功能强大到无法想象。本文主要使用一下几种函数绘图:displot:灵活绘制单变量观测分布 boxplot:绘制箱型图 countplot:使用条形显示每个分类箱中的观察计数 jointplot:用双变量和单变量图绘制两个变量的图 pairplot:绘制数据集中的...原创 2019-05-30 14:15:03 · 712 阅读 · 0 评论 -
数据分析:Pandas自定义describe方法,一行代码查看数据集各列的描述
Pandas提供describe方法,可以查看各列的计数、均值、最大最小值等,功能强大。下面介绍一种可根据自身要求,添加各个特征的其他描述的方法。df.describe().T.assign(missing_rate = df.apply(lambda x : (len(x)-x.count())/float(len(x))))T为转置,assign为添加的列。上述代码实现了,展示...原创 2019-05-08 09:16:38 · 7037 阅读 · 1 评论 -
数据分析:使用Imblearn处理不平衡数据(过采样、欠采样)
现实环境中,采集的数据(建模样本)往往是比例失衡的。比如网贷数据,逾期人数的比例是极低的(千分之几的比例)。对于这样的数据很难建立表现好的模型。好在Python有Imblearn包,它就是为处理数据比例失衡而生的。一.安装Imblearn包pip3 install imblearn二.过采样正样本严重不足,那就补充正样本。使用imblearn包中的over_sampling进行过...原创 2019-05-07 15:38:08 · 23017 阅读 · 6 评论 -
Matplotlib:plot的使用
import matplotlib.pyplot as pltfig = plt.figure()fig.set(alpha=0.2) # 设定图表颜色alpha参数 plt.subplot2grid((2,3),(0,0)) # 在一张大图里分列几个小图,位置是(0,0)data_train.Survived.value_counts().plot(kind...转载 2019-05-08 10:16:53 · 244 阅读 · 0 评论 -
Matplotlib高级:一张图两个Y轴
很多时候我们需要将两张曲线图展示在一张图上,方便对比和更加直观的观察。下面介绍如何用两个Y轴将两张图合并于一张图上显示。import matplotlib.pyplot as pltimport numpy as np x = np.arange(0,6)y1= [30481,12583,51,9,2,2]y2= [0.0065,0.016,0.039,0,0,0] fig,a...原创 2019-05-03 16:55:34 · 25817 阅读 · 1 评论 -
Pandas高级:map、apply和applymap
使用Pandas进行数据处理时,常用的映射函数有三种:map(),apply()和applymap()。map()函数是Python自带的,它只能用于一维数组。在Pandas中使用时,只能用于Series类型或者DataFrame中的某一列/行。apply()和applymap()是Pandas中的函数。他们可以用于一维或者多维数组。1.mapmap() 会根据提供的函数对指定序列...原创 2019-02-12 11:06:40 · 1049 阅读 · 0 评论 -
Pandas基础:查看各列数据类型
看到很多人查这个问题,刚好这两天在项目上也用到这一点。要查看各列的数据类型,因为数据处理时,首先就是要高清手里的数据都是什么类型的,尤其要关注字符型,因为很多算法都是不支持字符类型的。当数据维度和数据量都很少的时候,可以很直观的看出来,但是数据量一大,很难肉眼观测,而且很多时候是看不出隐藏的数据问题的。所以要用代码,其实代码很简单。一、读取数据df = pd.read_csv('da...原创 2019-02-15 13:48:43 · 75023 阅读 · 0 评论 -
数据分析:各种方法
iv值,MIC值,KS值,相关系数,皮尔森相关系数计算方法。# -*- coding: utf-8 -*-# @Time : 2019/2/14 下午4:19# @Author : yangchen# @FileName: IV.py# @Software: PyCharm# @Blog :https://blog.csdn.net/opp003/articlei...原创 2019-05-09 16:30:55 · 423 阅读 · 0 评论 -
Pandas高级:合并数据集concat
本文主要介绍pandas中常用的数据合并的方法concat。先定义一个生产数据的函数:"""一个简单的DataFrame"""def make_df(cols, ind): data = {c: [str(c) + str(i) for i in ind] for c in cols} return pd.DataFrame(data, ind...原创 2019-01-22 10:49:40 · 424 阅读 · 0 评论 -
数据分析:异常值检测--箱型图
在做数据分析时,我们免不了要检查数据中的异常值,但是什么样的数据算作异常呢。有人说很大或者很小的值,那到底多大多小的值算异常。箱型图就可以很好的解决这个问题。我们都知道折线图、柱状图等,但很少使用过箱型图。关于箱型图,百度百科的解释为:箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。在各种领域也经常被使用,常见于品质管理。...原创 2018-12-12 09:24:33 · 17601 阅读 · 0 评论 -
数据分析:Pandas单变量图形分析
在数据分析过程中,常常会对每个或部分特征变量进行数据分析,而图形展示最为直观。今天就来学习下,如何通过pandas实现单变量的统计图。数据集依旧是Kaggle的Give Me Some Credits。首先,读取数据。import pandas as pdimport matplotlib.pyplot as pltdata = pd.read_csv('/cs-training....原创 2018-12-12 14:11:03 · 809 阅读 · 0 评论