![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Pandas
文章平均质量分 50
陈天睡懒觉.
这个作者很懒,什么都没留下…
展开
-
黑马SQL笔记 -基础篇 - 5.事务
上述的这种方式,我们是修改了事务的自动提交行为, 把默认的自动提交修改为了手动提交, 此时我们执行的DML语句都不会提交, 需要手动的执行commit进行提交。为了解决并发事务所引发的问题,在数据库中引入了事务隔离级别。事务是一组操作的集合,它是一个不可分割的工作单位。上述就是事务的四大特性,简称ACID。原创 2022-09-30 20:32:26 · 179 阅读 · 1 评论 -
黑马SQL笔记 -基础篇 -4.多表查询
对于union查询,就是把多次查询的结果合并起来,形成一个新的查询结果集。子查询返回的结果是一行(可以是多列),这种子查询称为行子查询。子查询返回的结果是一列(可以是多行),这种子查询称为列子查询。子查询返回的结果是多行多列,这种子查询称为表子查询。常用的操作符:= 、 、IN 、NOT IN。:当前表与自身的连接查询,自连接必须使用表别名。:相当于查询A、B交集部分数据。原创 2022-09-30 20:31:45 · 261 阅读 · 0 评论 -
Pandas - 11.2 datetime
基于日期数据获取子集。原创 2022-08-02 10:35:18 · 126 阅读 · 0 评论 -
Pandas - 10.3 单个分组聚合
grouped中的元素sex_group是一个元组,sex_group的第一个元素是字符串(类似于‘键’),第二个元素是DataFrame(类似于‘值’)针对可能计算的列计算,删除不能计算的列。原创 2022-07-31 16:47:10 · 265 阅读 · 0 评论 -
Pandas - 10.2 转换与过滤
转换与聚合成单个值的计算不同,数据转换后数量不会变,比如标准化,只是在不同的类中进行标准化。对比分组标准化和不分组标准化,两个分组标准化结果类似,但不分组区别很大以缺失值填充为例,用组内平均值代替,而不是整个数据的平均值。比如男性和女性的消费能力不同,区分男女计算平均值代替缺失值更加合理。...原创 2022-07-30 22:24:31 · 278 阅读 · 0 评论 -
Pandas - 10.4 多个分组聚合
多级索引Serise的形式,r若要执行另一个groupby操作,必须传入level参数指明多级索引的级别。传入level=[0,1,2]分别指定第一级,第二级,第三级索引。统计每次重复的干预次数,干预时间和治疗效果,这里随意计算ig_type,因为只需要一个值来得到分组的观测数。对多个指标分组的结果进行计算,聚合计算的结果是一个比较奇怪的DataFrame。按照多个指标分组的情况,与单个指标分组差别不大,在获取分组时需要用元组。结果是多级索引Serise的形式,可以用reset_index()铺平。...原创 2022-07-30 22:17:54 · 763 阅读 · 0 评论 -
Pandas - 10.1 聚合groupby-agg/aggreagte
quantile(q=0.25)/np.percentile(q=0.25)较小四分位数。quantile(q=0.75)/np.percentile(q=0.75)较大四分位数。quantile(q=0.5)/np.percentile(q=0.5)中位数。带有多个参数的自定义聚合函数,第一个参数是值序列,其他参数作为关键字传入agg。count/np.count_nonzero统计频数(不包含NaN值)sem/scipy.stats.sem平均值的无偏方差。...原创 2022-07-20 17:12:41 · 949 阅读 · 0 评论 -
Pandas - 9.1 apply应用
titanic=sns.load_dataset(‘titanic’)命令会因为网络原因报错。带有参数的函数,需要额外指定参数,函数的第一个变量是Serise的元素。需求计算titanic每一行或每一列的完整案例(不含缺失值)的百分比。cache=True时,会根据data_home的路径来加载数据集。DataFrame需要指定按行还是按列应用函数。需要手动下载,然后从本地导入。...原创 2022-07-18 14:58:11 · 360 阅读 · 0 评论 -
python 字符串
python 字符串方法原创 2022-07-14 15:52:25 · 326 阅读 · 0 评论 -
Pandas - 5.缺失值处理
判断缺失值isnull()notnull()import pandas as pdfrom numpy import NaN,NAN,nanimport numpy as npprint(pd.isnull(NaN))print(pd.isnull(NAN))print(pd.isnull(nan))print(pd.isnull(True))TrueTrueTrueFalseprint(pd.notnull(NaN))print(pd.notnull(NAN))p原创 2022-05-22 17:47:02 · 828 阅读 · 0 评论 -
Pandas - 4. 组合 concat 和 merge
concat()函数当相同类型的表被分成好多个部分,需要将各部分按行或按列连接按行连接concat,可以连接多个append,只追加单个import pandas as pddf1 = pd.read_csv('data/concat_1.csv')df2 = pd.read_csv('data/concat_2.csv')df3 = pd.read_csv('data/concat_3.csv')print(df1)print(df2)print(df3) A原创 2022-05-22 13:49:14 · 414 阅读 · 0 评论 -
Pandas - 2.抽取行列
import pandas as pddf = pd.read_csv('data/gapminder.tsv',sep='\t')print(df.head()) country continent year lifeExp pop gdpPercap0 Afghanistan Asia 1952 28.801 8425333 779.4453141 Afghanistan Asia 1957 30.332 9240原创 2022-05-21 14:45:05 · 250 阅读 · 0 评论 -
Pandas - 3.Series和DataFrame
import pandas as pd创建Series传入列表s = pd.Series([175, 65, 25])print(s)0 1751 652 25dtype: int64指定索引indexs = pd.Series([175, 65, 25], index=['height', 'weight', 'age'])print(s)height 175weight 65age 25dt原创 2022-05-21 14:33:31 · 162 阅读 · 0 评论 -
Pandas 1.数据的读取和保存
读取数据pd.read_excel()读取.xlsx文件文件名可以包含中文读取的内容有中文不会乱码pd.read_pickle()读取.pickle文件文件名可以有中文读取的内容有中文不会乱码pd.read_csv()读取.csv文件文件名不可以有中文(会报错)关于中文乱码:可以尝试 encoding=‘gbk’读取.csv文件报错的部分原因,在Excel中将.excel另存为.csv文件时:选择 CSV UTF-8 格式,有无中文都不会出错(举例文件名末尾csv_原创 2022-04-30 10:54:00 · 2701 阅读 · 0 评论