python数据分析
文章平均质量分 88
记录初学python学习历程,记录学习笔记
卷末
是真的热忱吗?还是说,远远不够?
展开
-
day14-抖音用户数据分析
解决matplotlib库中的字体设置和Unicode minus问题data字段含义第一列是未定义的字段, 是顺序的, 但是不连续, 可能是过处理以后的数据集uid:用户iduser_city:用户所在城市item_id:作品idauthor_id:作者iditem_city:作品城市channel:观看到该作品的来源finish:是否浏览完作品music_id:音乐idduration_time:作品时长 (秒)real_time:作品发布时间。原创 2023-11-23 15:12:15 · 2186 阅读 · 1 评论 -
day13 黑色星期五案例
性别方面: 男性的消费能力比女性要高婚否: 购买商品的人, 未婚的比已婚的购买人数多, 未婚的比已婚的采购额要高, 男性的婚姻状况对男性的采购额影响较大年龄: 18 - 45 年龄范围的人, 消费能力要强城市: B城市猜测是中大型城市, 消费能力要高于其他城市居住年限: 居住一年左右的人群消费能力要高, 后续随着居住年限的增加, 消费能力会降低职业: 不同职业消费能力差异大, 营销策划重点可以放在 [ 14 20 12 17 1 7 0 4 ]原创 2023-11-23 14:18:30 · 1027 阅读 · 0 评论 -
day12-关联分析
但是,由于函数调用是按顺序执行的,这两行代码可能会导致函数scan_d被执行两次,从而可能产生两次不同的结果(除非你的函数是纯函数,即不依赖于任何外部状态或副作用)。所以,如果你的函数scan_d的结果依赖于其输入的顺序(例如,如果它依赖于外部状态或具有副作用),那么上述两行代码会产生不同的结果。这种语法称为解构赋值或多重赋值。这种语句会将函数scan_d(data_set, c1, 0.5)的返回值分解为两个部分,并将它们分别赋值给l1和supp_data。原创 2023-11-10 17:37:56 · 96 阅读 · 1 评论 -
day11-seaborn
Seaborn 是一个基于且数据结构与统一的统计图制作库。Seaborn 框架旨在以数据可视化为中心来挖掘与理解数据。它提供的面向数据集制图函数主要是对行列索引和数组的操作,包含对整个数据集进行内部的语义映射与统计整合,以此生成富于信息的图表。在终端安装:官方文档:http://seaborn.pydata.org/index.html中文文档: https://seaborn.apachecn.org/#/README(需要加速)博主可以无偿私发。原创 2023-11-10 17:04:15 · 166 阅读 · 1 评论 -
day10-pyecharts进阶
pyecharts官方文档:注意!以下在jupyter notebook渲染,并非pycharm一定要认真看官方文档!!!一定要认真看官方文档!!!一定要认真看官方文档!!!原创 2023-11-07 22:01:31 · 91 阅读 · 0 评论 -
day9-pyecharts简单操作
注意!以下在jupyter notebook渲染,并非pycharm一定要认真看官方文档!!!一定要认真看官方文档!!!一定要认真看官方文档!!!原创 2023-11-06 17:46:25 · 106 阅读 · 0 评论 -
day8-分组聚合与时间序列
简单的累计方法可以让我们对数据集有一个笼统的认识,但是我们经常还需要对某些标签或索引的局部进行累计分析,这时就需要用到groupby 了。虽然“分组”(group by)这个名字是借用 SQL 数据库语言的命令,但其理念引用发明 R 语言 frame 的 Hadley Wickham 的观点可能更合适:分割(split)、应用(apply)和组合(combine)。一个经典分割 - 应用 - 组合操作,其中“apply”的 是一个求和函数。下图清晰地描述了 GroupBy 的过程。原创 2023-11-01 21:46:49 · 138 阅读 · 1 评论 -
day7-Pandas数据清洗
但是这么做也会把非缺失值一并剔除,因为可能有时候只需要剔除全部是缺失值的行或列,或者绝大多数是缺失值的行或列。在标签方法中,标签值可能是具体的数据(例如用 -9999 表示缺失的整数),也可能是些极少出现的形式。我们将用一个单独的值来填充缺失值,例如用 0,也可以用缺失值前面的有效值来从前往后填充(forward-fill)与从后往前填充(back-fill)还有两种很好用的缺失值处理方法,分别是 dropna()(剔除缺失值)和 fillna()(填充缺失值)duplicated() 判断重读数据。原创 2023-10-30 11:02:59 · 61 阅读 · 1 评论 -
day5-Pandas基础
官网:http://pandas.pydata.org/Pandas官网Pandas是一个强大的分析结构化数据的工具集,基于NumPy构建,提供了高级数据结构和数据操作工具,它是使Python成为强大而高效的数据分析环境的重要因素之一。一个强大的分析和操作大型结构化数据集所需的工具集基础是NumPy,提供了高性能矩阵的运算提供了大量能够快速便捷地处理数据的函数和方法应用于数据挖掘,数据分析提供数据清洗功能。原创 2023-10-22 11:46:11 · 101 阅读 · 1 评论 -
day6-Pandas索引及运算
1.Series和DataFrame中的索引都是Index对象运行结果2.索引对象不可变,保证了数据的安全。原创 2023-10-24 16:55:24 · 88 阅读 · 1 评论 -
day4-numpy进阶
上述代码中,数组arr1是4行1列,arr2是1行3列。这两个数组要进行相加,按照广播机制会对数组arr1和arr2都进行扩展,使得数组arr1和arr2都变成4行3列。当形状不相等的数组执行算术运算的时候,就会出现广播机制,该机制会对数组进行扩展,使数组的shape属性值一样,这样,就可以进行矢量化运算了。广播机制实现了时两个或两个以上数组的运算,即使这些数组的shape不是完全相同的,只需要满足如下任意一个条件即可。,使得它与维度最大的数组的shape值相同,以便使用元素级函数或者运算符进行运算。原创 2023-10-20 17:38:00 · 70 阅读 · 2 评论 -
day3 - 初学numpy
NumPy是一个功能强大的Python库,主要用于对多维数组执行计算。原创 2023-10-17 21:43:07 · 44 阅读 · 0 评论 -
miniconda环境搭建和Jupyter Notebook入门使用
1,配置conda镜像源,使用清华的镜像源加速,“Win”+R ,输入cmd进入cmd终端,输入以下指令回车执行miniconda解释器安装好,继续在终端执行以下命令:2 安装Jupyter包3 拓展模块4 更新nbconvert,不然可能不适配5 适配模块6 拓展插件7 适配插件8 安装pep8代码规范的模块9 安装拓展包依赖的第三方功能模块10 输入命令环境搭建好后,在命令行下输入命令,会自动打开默认浏览器, 少数win11系统不会自动打开浏览器.点击链接也可进入11 打开以后,在。原创 2023-10-12 17:42:04 · 2103 阅读 · 0 评论 -
day2 - 初学matplotlib
matplotlib是一个 Python的2D图库,以下是终端安装代码。原创 2023-10-14 20:41:13 · 109 阅读 · 1 评论