python——数据分析
文章平均质量分 62
小枍~
暂无
展开
-
业务数据分析——同环比(待补全)
同比、环比、数据分析原创 2022-11-29 23:06:49 · 2600 阅读 · 0 评论 -
字段类型—待补全
字段类型原创 2022-10-20 22:15:52 · 263 阅读 · 0 评论 -
机器学习理论知识
1.含义: 机器学习擅长从历史数据中学习规律。2.机器学习研究的问题: 回归,分类,聚类,降维。3.回归 机器需要对已有的数据进行拟合,再根据拟合出来的函数,对未来进行预测。4.拟合 寻找最优的光滑曲线,从整体上靠近已有的数据。5.分类 机器需要先找到已知分类的划分规则,再应用该划分规则对新的事物进行分类。6.聚类 研究如何对未分组的事物进行分组。根据事物之间的相似性,将事物划分为若干组,并加上标签。7.降维 研究如何提取数据中的关键信息。需要分析不同维度数据的重要程度。机器学习原创 2021-06-01 08:41:51 · 205 阅读 · 0 评论 -
Seaborn库
1.简介 Seaborn是一个基于Matplotlib开发的第三方可视化库,在matplotlib的基础上进行了更高级的API封装。可做更多统计图表。 eg:sns.relplot(x=‘年份’,y=‘人口出生率’,data=population,kind=‘line’) 数据的基本分类:定性数据(分类数据)事务属性或类别以及区间值的数据 定量数据(离散数据、连续数据),通常以数字形式出现。 描述性统计(Descriptive Statistics):描绘或总结数据基本情况 描述性统计图形:用于原创 2021-05-31 11:51:23 · 3987 阅读 · 1 评论 -
Numpy库
1.Numpy库 是一个开源的python科学计算基础库,是Scipy,Pandas等数据处理或者科学计算得基础 Numpy的计算操作由预编译好的C代码快速执行。 知识体系:ndarray数组,ufunc通用函数,子模块包2.ndarray数组 导入:import numpy as np; 一维数组:列表/元组 eg:[1,2,3] 二维数组:列表/元组 eg:[[0,0,0],[1,1,1]] 三维数组:列表/元组 eg:[[[0,0,0],[1,1,1]], [[0,0,0,]原创 2021-05-29 13:15:19 · 124 阅读 · 0 评论 -
RFM模型
1.基础知识 1)数据的读取和写入(DataFrame对象) pd.read_excel(io,sheet_name)函数; io是Excel文件路径或文件对象. sheet_name是Excel文件工作表名称 pd.to_excel(excel_writer,sheet_name,index=’ ')函数. excel_writer是Excel文件路径或者文件对象,sheet_name是Excel文件工作表名称,index是决定是否加入行索引,默认为True,写入行索引。 2)数据的类型转换原创 2021-05-29 12:36:33 · 1267 阅读 · 1 评论 -
Apriori算法进行关联分析
基础知识1.创建DataFrame对象 传入数据可以是字典和嵌套列表。字典的创建为DataFrame对象的列名,值为数据 列表元素作为DataFrame对象的行数据显示,从0开始 pd.DataFrame(data,columns=[’ ‘,’ ‘,’ ']),columns为列表时,与传入DataFrame列表元素长度一致。 对列索引(列名)进行重新赋值。data.columns = [‘a’,‘b’,‘c’]——(新列名)2.默认按升序对数据进行排列: data.sort_values(b原创 2021-05-26 09:59:33 · 960 阅读 · 0 评论 -
数据分析——数据展现
数据展现工具使用matplotlib绘图流程:1)导入模块 from matplotlib import pyplot as plt2)创建画布 plt.figure(figsize=(7,7)):参数figsize可以控制长和宽3)设置x,y坐标值信息 x=df.index(索引),y=df.values(数据值)4)绘制折线图/柱状图/饼图,并调整格式 折线图:plt.plot(x,y,color=’ ')参数说明示例x,y坐标x=s.index,y=s.v原创 2021-05-25 20:20:59 · 747 阅读 · 1 评论 -
数据分析——分组聚合
分组聚合操作1.单层分组聚合 df=df.groupby(‘列索引’)[‘列名’].mean():聚合求平均值2.多层分组聚合 df=df.groupby([‘列1’,‘列2’],……,as_index=False包含自带行索引)[‘列名’].mean() s.unstack()可以将多层聚合后的Series对象转变成DataFrame对象,将索引的最后一行转变成DataFrame对象的列索引,剩下的索引为DataFrame对象的行索引数据可视化1.可视化的三个功能:信息记录;支持对信息的推理原创 2021-05-25 19:21:35 · 627 阅读 · 1 评论 -
数据分析——数据处理
数据处理步骤1.数据清洗1)处理缺失值 ①查看 df.info():查看数据基本信息 ②查找 df.isna():查找DataFrame对象缺失值,缺失数据用True表示,False表示不缺失 df[‘列索引’].isna():指定列查找缺失值 Series.isna():查找Series对象缺失值 ③删除 df.dropna():删除两大对象中含有缺失的数据(行) df.dropna(subset=[‘列索引’]):删除指定列缺失的行 ④填充 fillna()方法给原创 2021-05-25 17:11:35 · 1701 阅读 · 0 评论 -
pandas库
1.pandas库基础知识两种数据结构1)Series对象 Series:由一组数据及其对应索引组成 dtype:object(Series对象中的数据至少有一条是字符串类型)。 Series对象创建:pd.Series(data) data可以是列表、字典、标量、n维数组,字符串 S.isnall()函数:查看为空的值,返回布尔值 Series的属性与方法: s.index(索引),s.values(值),s.sort_index(根据索引排序),s.sort_values(根据数值原创 2021-05-24 22:24:00 · 337 阅读 · 1 评论