数据分析
百雨
希望在工作过程中将问题与解决方案记录下来
展开
-
matplotlib绘制子图(圆,三角函数)
效果图:注:(1) plot1.add_subplot(2,2,1)参数2,2,1表示子图共两行两列,1表示现在绘制第一个子图(2)下面两句顺序不能颠倒plt.plot(x,y,color='pink',marker='*')plt.legend(["圆"])import numpy as npimport matplotlib.pyplot as plt#让图...原创 2019-05-20 17:10:52 · 2524 阅读 · 0 评论 -
matplotlib同一坐标四个柱状图绘制
分析所用文件来源:https://download.csdn.net/download/sinat_38068807/11212890代码:import matplotlib.pyplot as pltimport numpy as np"""绘制2000-2017年四项产业(建筑、零售、交通、餐饮)均值统计图"""file = np.load(r'C:\Users\Ad...原创 2019-05-28 22:26:16 · 4806 阅读 · 0 评论 -
联合重整数据combine_first
因为df3为调用方,所以combine_first返回df4对df3的修补,若相同位置都有值,以df3主调方位置df3 = pd.DataFrame({'字母':list('abcd'),'数字':[np.nan,3,np.nan,5]})df4 = pd.DataFrame({'字母':list('af d'),'数字':[0,1,np.nan,3]})print(df3)print...原创 2019-05-23 22:51:32 · 1230 阅读 · 0 评论 -
merge做了什么
原创 2019-05-23 22:32:39 · 238 阅读 · 0 评论 -
concat做了什么
(一) 需要进行连接的两个DataFrame需要连接的第一个DataFrame需要连接的第二个DataFrame(二)以axis=1拼接从列数来看,列直接拼接2+3共5列(尽管列名相同)。从行数来看,进行了规整,3,4行相同行号共享即下图红色2区域。第一个DataFrame没有紫色框1的数据第二个DataFrame没有紫色框3的数据(三)以a...原创 2019-05-23 22:29:40 · 688 阅读 · 0 评论 -
航空公司客户价值特征构建与分析k-means
完整代码及数据来源:https://download.csdn.net/download/sinat_38068807/11217499(一)航空数据分析将客户关系长度L、消费时间间隔R、消费频率F、飞行里程M和折扣系数的平均值C这5个特征作为航空公司识别客户价值的特征,记为 LRFMC模型,如图:由于原始数据中并没有直接给出 LRFMC模型的5个特征,需要通过原始数据提取这5...原创 2019-05-30 21:05:48 · 3155 阅读 · 1 评论 -
透视表指定行列索引结果如何?
import pandas as pdimport numpy as npfrom sqlalchemy import create_engineengine = create_engine("mysql+pymysql://root:admin@localhost:3306/pd_tosql?charset=utf8")formlist = pd.read_sql_query('sh...原创 2019-05-27 22:09:26 · 415 阅读 · 0 评论 -
怎么理解数组的轴
axis的作用即如何理解numpy是python进行科学计算必不可少的模块,随着深度学习越来越火,numpy也越来越流行。了解numpy的人知道,在numpy中,有很多的函数都涉及到axis,很多函数根据axis的取值不同,得到的结果也完全不同。可以说,axis让...转载 2019-05-18 15:23:17 · 3153 阅读 · 0 评论 -
dataframe合并与去重两个方法
(一)用mergehttps://blog.csdn.net/sinat_38068807/article/details/90577105(二)用concathttps://blog.csdn.net/sinat_38068807/article/details/90515142原创 2019-05-26 16:26:29 · 8175 阅读 · 2 评论 -
pandas重建索引不删除值
df1 = pd.DataFrame({'name':['张三','李四','王五','张三'],'age':[18,19,20,18]})df2 = pd.DataFrame({'name':['张三','李四','王五','张三'],'id':[300,260,280,300]})df3 = pd.merge(df1,df2,on='name',how='left')# pri...原创 2019-05-26 16:23:31 · 5336 阅读 · 0 评论 -
pandas数据预处理之标准化数据
"""=====================================标准化数据========================================"""# 一般特征之间有不同的量纲,如果不做处理,会造成数据间的差异很大,则涉及空间距离计算或者相似度计算时,需要对不同特征数据标准化# (1.)离差标准化:x=(x-min)/(max-min) 注意:1、当max= ...原创 2019-05-26 15:43:50 · 6756 阅读 · 0 评论 -
矩阵创建与矩阵运算
(一)创建矩阵方式一matr1 = np.mat('1 2 3; 4 5 6; 7 8 9')print(type(matr1))print(matr1)#表示矩阵#方式二matr2 = np.matrix([[1,2,3],[4,5,6],[7,8,9]])print(matr2)(二)拼接arr1 = np.eye(3)arr2 = 3*arr1高度宽度要相同(即arr1若)...原创 2019-05-21 22:56:00 · 492 阅读 · 0 评论 -
数组常用方法总结(有广播机制)
目录(一)导入模块(二) 一维数组创建(三)二维数组创建(四)数组属性(五)专门用来构建数组的函数(六)生成随机数(七)一维数组索引(八)二维数组索引(九)去重(十)重复(十一)数组展平(十二)数组组合hstack、vstack(十三)concatenate拼接(十四)分割split(十五)读写文件(十六)统计函数(十七...原创 2019-05-21 22:16:23 · 931 阅读 · 0 评论 -
分析数据之雷达图
结果图:步骤分析如图:极轴就是极坐标系的开始位置,代码中的angles就是极轴转出来的角度1、明确有几个特征,将圆平均切分2、每个特征的数据3、绘图代码:import matplotlib.pyplot as pltimport numpy as np#字体设置plt.rcParams['font.sans-serif'] = 'SimHei'plt...原创 2019-05-21 14:44:21 · 11865 阅读 · 1 评论 -
dataframe删除重复列
(一)直接点题利用drop_duplicates()与转置矩阵的做法drop_duplicates()是删除重复行(二) 代码即图片说明df1 = pd.DataFrame({'name':['张三','李四','王五','张三'],'age':[18,19,20,18]})df2 = pd.DataFrame({'name':['张三','李四','王五','张三'],'id...原创 2019-05-24 14:13:14 · 18419 阅读 · 4 评论 -
散点图、折线图、柱状图、饼图绘制(城乡人口)
分析所用文件来源:https://download.csdn.net/download/sinat_38068807/11212912代码如下:import matplotlib.pyplot as pltimport numpy as npplt.rcParams['font.sans-serif'] = 'SimHei'plt.rcParams['axes.unicode...原创 2019-05-28 22:37:53 · 2771 阅读 · 0 评论