- 博客(8)
- 收藏
- 关注
原创 利用python对数据进行分组统计
SQL经常将聚合函数与GROUP BY进行组合,对数据进行分组统计分析,python在分析数据中也可以实现相同的功能,而且python汇总这个函数名称也是GROUPBY()函数首先创建一个数据表import pandas as pdimport numpy as npvalue = {'用户ID':['001','002','003','004','005','006'], '用户类型':['大','小','中','大','小','中'], '区域':['
2021-04-30 17:07:40 17479 2
原创 dataframe横向和纵向拼接
横向拼接import pandas as pdimport numpy as npdf1 = pd.DataFrame([['Tom','2001',98], ['Jack','2002',63], ['Lucy','2003',88], ['Nick','2004',100]],columns=['姓名','学号','成绩'])df2 = pd.DataFrame([
2021-04-28 23:35:43 5864 1
原创 SQL中PIVOT函数和CASE方法实现透视表的差异
为了解释清楚之间的差异,创建如下所示数据表CREATE TABLE 销售(商店名 VARCHAR(50), 商品类型 VARCHAR(50), 销售量 INT, 日期 DATE)INSERT INTO 销售VALUES ('李宁','短袖',30,'2021/4/27'),('李宁','短袖',40,'2021/4/28'), ('李宁','短袖',50,'2021/4/29'), ('李宁','裤子',60,'2021-4-27'),('李宁','裤子',80,'2021-4-
2021-04-27 10:51:47 621
原创 数据分析_python进行数据筛选1_行筛选
以titanic的训练数据为例进行展示,为了简化取前十行为例首先导入模块,导入数据import pandas as pd import numpy as np df = pd.read_csv(r"C:\Users\admin\Desktop\train.csv")df = df.head(10)df.index=['a','b','c','d','e','f','g','h','i','g']筛选单行1.利用df[行索引:行索引]筛选出单行,这里的行索引可以是行索引的名称如df
2021-04-26 16:10:30 3336
原创 数据分析_python进行数据筛选1_列筛选
以titanic的训练数据为例进行展示,为了简化取前十行为例首先导入模块,导入数据import pandas as pd import numpy as npdf = pd.read_csv(r"C:\Users\admin\Desktop\train.csv")df = df.head(10)df.index=['a','b','c','d','e','f','g','h','i','g'] PassengerId Survived Pclass ...
2021-04-26 15:39:22 4075
原创 数据分析_python进行数据预处理3_处理异常值
数据预处理主要包括缺失值处理、重复值处理和异常值的处理异常值首先创建一个实例import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib inlinedf=pd.DataFrame()np.random.seed(100)df['name']=pd.Series([str(i) for i in np.arange(100)])df['age']=pd.Series(np.ran
2021-04-24 12:11:57 618
原创 数据分析_python进行数据预处理2_处理重复值
数据预处理主要包括缺失值处理、重复值处理和异常值的处理重复值首先创建一个实例df=pd.DataFrame(data=[['A1','张通',101,'2018-08-08'] ,['A2','李谷',102,'2018-08-09'] ,['A3','孙凤',103,'2018-08-10'] ,['A3','孙凤',103,'2018-08-10']
2021-04-24 11:37:10 651
原创 数据分析_python进行数据预处理1_处理缺失值
数据预处理主要包括缺失值处理、重复值处理和异常值的处理缺失值首先创建一个实例数据import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib inlinedata=[[np.nan,54,'男','2018/8/8'], [np.nan,16,np.nan,'2018/8/9'], ['A3',47,'女','2018/8/10'], ['A4',41
2021-04-24 09:04:34 584 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人