![](https://img-blog.csdnimg.cn/20190920135015536.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Pandas数据分析
Pandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。
Ch3nnn
这个作者很懒,什么都没留下…
展开
-
Pandas中groupby的这些用法
文章来源:小数志作者:luanhz01 如何理解pandas中的groupby操作groupby是pandas中用于数据分析的一个重要功能,其功能与SQL中的分组操作类似,但功能却更为强大。理解groupby的原理可参考官网给出的解释:其中: split:按照某一原则(groupby字段)进行拆分,相同属性分为一组 apply:对拆分后的各组执行相应的转换操作 combine:输出汇总转换后的各组结果 02 分组(split...原创 2020-07-20 09:50:57 · 67557 阅读 · 1 评论 -
pandas DataFrame Combine_first方法 数据类型改为将浮点数
正常查看df中公司名称为"xxxx股份有限公司"的股票代码 显示为 000729df3[df3.company=="xxxx股份有限公司"].secuCodeOut[2]: 2958 000729Name: secuCode, dtype: object但是通过 DataFrame Combine_first方法时, 发现数据类型发生变化, 而且数据格式也不是我想要的df4 = df1.combine_first(df2)df4[df4.company=="xxx有限公司"].原创 2020-05-29 18:47:46 · 1282 阅读 · 0 评论 -
pandas 数据排序.sort_index()和.sort_values()
import pandas as pddf = pd.DataFrame(……)说明:以下“df”为DataFrame对象。1. df. sort_values()作用:既可以根据列数据,也可根据行数据排序。注意:必须指定by参数,即必须指定哪几行或哪几列;无法根据index名和columns名排序(由.sort_index()执行)调用方式DataFrame.sor...原创 2020-03-25 14:09:32 · 2039 阅读 · 0 评论 -
如何并排输出两个Pandas数据框中的差异?
我试图强调两个数据框之间的确切变化。假设我有两个Python Pandas数据框:"StudentRoster Jan-1":id Name score isEnrolled Comment111 Jack 2.17 True He was ...原创 2020-03-20 16:35:10 · 970 阅读 · 0 评论 -
pandas.DataFrame 根据条件新建列并赋值
import numpy as npimport pandas as pd data = {'city': ['Beijing', 'Shanghai', 'Guangzhou', 'Shenzhen', 'Hangzhou', 'Chongqing'], 'year': [2016,2016,2015,2017,2016, 2016], 'population...原创 2020-01-15 18:19:24 · 6253 阅读 · 0 评论 -
Spark与Pandas中DataFrame对比
Pandas Spark 工作方式 单机single machine tool,没有并行机制parallelism 不支持Hadoop,处理大量数据有瓶颈 分布式并行计算框架,内建并行机制parallelism,所有的数据和操作自动并行分布在各个集群结点上。以处理in-memory数据的方式处理distributed数据。 支持Hadoop,能处理大量数...原创 2020-01-09 15:28:52 · 203 阅读 · 0 评论 -
pandas打印结果出现省略的解决方案
pandas打印结果的列数或者行数过多,导致出现省略号的解决方案(临时):如图:5行12列只显示出来2列5行12列只显示出来5行2列暂时可行的解决方案:设置最大显示的行数:pd.set_option('display.max_columns',1000)pd.set_option('display.max_columns',None)设置显示的宽度:pd.set_opt...原创 2019-12-24 16:28:48 · 860 阅读 · 0 评论 -
pandas中将时间戳转化为日期格式
自该参考日期以来,数值将被解析为单位数(由unit定义)。要想将时间戳转换为日期格式需要用到。: 标量,默认为'unix'原创 2019-12-24 14:51:47 · 9215 阅读 · 5 评论 -
Pandas之两个结构相同的DataFrame 互相补充|合并重叠数据 combine 和 combine_first
# Combine,后一个对象补齐前一个对象# Seriess1 = Series([2,np.nan,4,np.nan], index=['A','B','C','D'])s1Out[29]: A 2.0B NaNC 4.0D NaNdtype: float64s2 = Series([1,2,3,4], index=['A','B','C','D...原创 2019-12-05 21:19:52 · 2796 阅读 · 0 评论 -
将pandas某个列数据是多个拆分单行数据到多行
如上图数据:想把它数据按sname这个字段拆分出来 df_content = df_content.drop('sname', axis=1).join(df_content['sname'].str.split(',', expand=True).stack().reset_index(level=1, drop=True).rename('sname')...原创 2019-09-27 11:19:09 · 3166 阅读 · 5 评论 -
Pandas读取MongoDB数据
读取mongodb同样需要安装驱动,先安装pymongo。import pandas as pdimport pymongoclient = pymongo.MongoClient(host='localhost',port=27017)db = client.DBNamecollection = db.collectionNamedata = pd.DataFrame(li...原创 2019-09-02 14:18:09 · 1224 阅读 · 0 评论 -
pandas.Series.str.extract 正则提取数据
pandas.Series.str.extract¶Series.str.extract(self,pat,flags = 0,expand = True)[来源]提取的正则表达式捕获组拍作为一个数据帧列。对于系列中的每个主题字符串,从正则表达式pat的第一个匹配中提取组。参数: pat:str 具有捕获组的正则表达式模式。 flags:i...原创 2019-08-29 16:14:22 · 15512 阅读 · 4 评论 -
解决pymysql.err.InternalError: (1054, "Unknown column 'nan' in 'field list'") 的问题
使用pandas过程中,数据转化成DataFrame格式会将缺失值会用NAN填充, 如果直接将数据用pymysql写入数据库会报错,此时需要将NAN替换成None , 因为None插入数据库会被填写Null 也就是数据库中的空值报错信息:pymysql.err.InternalError: (1054, "Unknown column 'nan' in 'field ...原创 2019-05-15 17:32:10 · 11710 阅读 · 0 评论 -
pandas DataFream 查找某列数据具体数据
DataFream数据如下:df.loc[df['webname'] == '中国货币网']以下代码可以参考:# df.loc[index, column_name],选取指定行和列的数据df.loc[0,'id'] # 'Snow'df.loc[0:2, ['id','title']] # 选取第0行到第2行,id和title列的数据, 注意这里的行选取是包含下...原创 2019-05-28 16:49:25 · 15719 阅读 · 0 评论 -
Pandas DataFrames 中 merge 合并的坑点(出现重复连接键)
在我的实际开发中遇到的坑点,查阅了相关文档 总结一下left = pd.DataFrame({'A': [1, 2], 'B': [2, 2]})right = pd.DataFrame({'A': [4, 5, 6], 'B': [2, 2, 2]})result = pd.merge(left, right, on='B', how='outer')警...原创 2019-05-29 09:50:06 · 22788 阅读 · 7 评论 -
Pandas DataFrame之如何修改列名
df.rename(columns={'原列名':'新列名'}, inplace=True)原创 2019-06-18 20:58:28 · 11336 阅读 · 2 评论 -
pandas 实现 in 和 not in 的用法及心得
经常在处理数据中从一个总数据中清洗出数据, 但是有时候需要把没有处理的数据也统计出来.这时候就需要使用:pandas.DataFrame.isinDataFrame中的每个元素是否都包含在值中pandas文档位置例子:如何实现SQL的等价物IN和NOT IN?我有一个包含所需值的列表。下面是一个场景:df = pd.DataFrame({'countries'...原创 2019-06-10 14:14:28 · 29881 阅读 · 0 评论 -
pandas FutureWarning 警告⚠️
pandasFutureWarning 警告⚠️FutureWarning:Passing list-likes to .loc or [] with any missing label will raiseKeyError in the future, you can use .reindex() as an alternative./usr/local/lib/pytho...原创 2019-07-04 15:02:42 · 7696 阅读 · 0 评论 -
Pandaral·lel 和Modi: 一行代码加快CPU环境下高效并行Pandas计算速度
Pandaral·lel使用pandas,当您运行以下行时:# Standard applydf.apply(func)得到这个CPU使用率:标准pandas适用 - 仅使用1个CPU即使计算机有多个CPU,也只有一个完全专用于您的计算。而不是下边这种CPU使用,想要一个简单的方法来得到这样的东西:并行Pandas适用 - 使用所有CPUPandara...原创 2019-08-14 12:00:47 · 3781 阅读 · 1 评论 -
pandas 将min()与groupby一起使用时, 并保留其他列数据, 类似于sql中的group by having min()
我正在使用groupbypandas数据帧删除所有没有特定列的最小行。像这样的东西:df1 = df.groupby("item", as_index=False)["diff"].min()但是,如果我有超过这两列,则其他列将被删除。我可以使用groupby保留这些列,还是我必须找到一种不同的方法来删除行?我的数据如下: item diff otherstuff...原创 2019-08-16 18:09:03 · 4498 阅读 · 3 评论 -
Pandas DataFrame连接表 几种连接方法的对比
可以通过多种方式将Pandas对象联合到一起pandas.merge: 根据一个或多个键进行连接。类似SQL的连接操作 pandas.concat:使对象在轴向上进行粘合或者‘堆叠’ combine_first:将重叠的数据拼接在一起,使用一个对象中的值填充另一个对象中的缺失值Pandas.DataFrame操作表连接有三种方式:merge, join, concat。下面就来说一说这...原创 2019-05-15 11:22:21 · 15948 阅读 · 0 评论