![](https://img-blog.csdnimg.cn/1fca118257f342b3ae8224505a70bdf9.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
数据分析
文章平均质量分 79
包括但不限于numpy、pandas、matplotlib、spss等等。
山顶夕景
实践出真知
展开
-
【Matplotlib】常用基本操作
文章目录学习心得1.Matplotlib图像构成2.Matplotlib是Python中一个二维绘图包,能够非常简单的实现数据可视化。Matplotlib最早由John Hunter于2002年启动开发,其目的是为了构建一个Matlab式的绘图函数接口。下面详细介绍Matplotlib图像构成、Matplotlib图像基本绘图流程、中文字符显示、坐标轴字符刻度标注等基本绘图知识。为了方便快速绘图,Matplotlib通过pyplot模块(import matplotlib.pyplo原创 2021-09-23 17:17:27 · 1376 阅读 · 1 评论 -
【Pandas】常用姿势积累
如有的库已经更新了用不了就找到对应库介绍。Pandas作为Python数据分析的核心包,提供了大量的数据分析函数,包括数据处理、数据抽取、数据集成、数据计算等基本的数据分析手段。Pandas核心数据结构包括序列和数据框,序列储存一维数据,而数据框则可以存储更复杂的多维数据。这里主要介绍二维数据(类似原创 2021-09-17 21:02:39 · 1500 阅读 · 0 评论 -
【NumPy】常用姿势积累
Numpy中,矩阵有两种表示方式:matrix类时,比如2 x 3矩阵A不能和A自身相乘array类时,上面的A则可以相乘,默认的乘法是Hadamard乘法(1)dot是点积(2)transpose是矩阵转置(3)inv是求矩阵的逆import numpy as npfrom numpy.linalg import invA = np.matrix([[1, 2], [3, 4], [5, 6]])print(A)print("=================")B = np.m原创 2021-06-18 17:44:11 · 778 阅读 · 0 评论 -
【LLM】大模型中的温度系数是啥玩意
LLM中的温度系数- temperature参数控制生成语言模型中生成文本的随机性和创造性,调整模型的softmax输出层中预测词的概率;- 其值越大,则预测词的概率的方差减小,即很多词被选择的可能性增大,利于文本多样化- 举例:Prompt: “The quick brown fox” - Temperature = 0.1:“The quick brown fox jumped over the lazy dog. The quick brown fox jumped over the原创 2023-07-14 14:01:35 · 3508 阅读 · 3 评论 -
解决‘_AxesStack‘ object is not callable while using networkx to plot
# 一、问题描述在使用`networkx`进行图数据可视化时报错如题`'_AxesStack' object is not callable while using networkx to plot`。其中matplotlib为3.6.2版本,networkx版本为2.7。```pythonplt.figure(figsize=(15,14))pos = nx.spring_layout(G, iterations=3, seed=5)nx.draw(G, pos, with_labels=Tru原创 2023-02-25 23:55:28 · 4541 阅读 · 3 评论 -
【CS224W】(task3)NetworkX工具包实践(地铁系统 | 城市交通)
一、Network创建图1.1 创建内置图(1)基础用图(2)networkX自带数据集(3)树1.2 创建连接表和邻接表1.3 添加节点1.4 添加连接二、美国城市交通关系无向图2.1 构图2.2 筛选出距离小于阈值的城市对2.3 城市关系可视化三、有向图可视化模板四、国际象棋对局MultiDiGraph多路图可视化4.1 创建图和连通域分析4.2 设置边长和节点属性4.3 可视化五、北京上海地铁站图数据挖掘5.1 读取数据5.2 最短路径5.3 地铁导航系统5.原创 2023-02-12 15:39:41 · 1970 阅读 · 7 评论 -
【Python】数值计算基础
python数值计算:多项式插值,积分计算、矩阵运算(线性方程组的求解、矩阵的特征值和特征向量、矩阵求逆)等基本运算。原创 2023-01-25 16:51:54 · 1106 阅读 · 1 评论 -
【数据分析】(task1)数据加载及探索性数据分析
根据常识我知道发现票价越高的应该客舱越好,所以我们会明显看出,票价前20的乘客中存活的有14人,这是相当高的一个比例,那么我们后面是不是可以进一步分析一下票价和存活之间的关系,年龄和存活之间的关系呢?【思考】从上面数据我们可以看出, 一共有891个票价数据, 平均值约为:32.20, 标准差约为49.69,说明票价波动特别大, 25%的人的票价是低于7.91的,50%的人的票价低于14.45,75%的人的票价低于31.00, 票价最大值约为512.33,最小值为0。默认分隔符为制表符“\t”原创 2021-07-09 02:24:24 · 861 阅读 · 4 评论 -
【数据分析】(task2)数据清洗及特征处理
如果某个方法无法找到缺失值:数值列读取数据后,空缺值的数据类型为float64所以用None一般索引不到,比较的时候最好用。(所谓的Titles就是Mr,Miss,Mrs等)原创 2023-01-14 15:45:13 · 665 阅读 · 5 评论 -
【数据分析】(task3)数据重构
可以改变data层次化结构,变成”花括号“结构(如下面的第二种,将行索引变成列索引,而。的分组都类似,如按照性别进行分组后统计每组的存活人数(存活这个字段需要先指定)。函数的主要作用是将原来的列转成最内层的行索引,转换之后都是多层次索引。方法是纵向(上下)合并拼接。方法是横向合并,然后用刚才的。(1)3这里df自带的。原创 2023-01-21 11:25:44 · 794 阅读 · 6 评论 -
【数据分析】(task4)数据可视化
在60-80岁的高龄群体中,看出遇难人数比存活人数更多,也有可能是这群老人逃生不方便;在0-14岁小孩群体中,存活人数相对比遇难人数多得多,看出在船上逃生很多人把生存机会优先让给小孩了。库进行可视化,从下图可视化图,看出第三类仓位的遇难人数非常多,第一类仓位的存活人数比遇难人数更多;第一类高级仓位也是三个仓位中,唯一一个仓位是存活人数更多的。primitive是基本要素,它包含一些我们要在绘图区作图用到的标准图形对象,如曲线Line2D,文字text,矩形Rectangle,图像image等。原创 2023-01-22 16:55:23 · 749 阅读 · 0 评论 -
【数据分析】(task5)数据建模及模型评估
有了之前的数据分析,我们也根据数据集判断是监督学习还是无监督学习,并且根据我们的任务、数据样本量、特征稀疏性等进行判断使用什么模型。逻辑回归是分类模型,随机森林是决策树为了防止过拟合。通常会先用一个baseline作为基本模型,然后再选择其他泛化能力更强的模型(参考上图的算法选择路径,深度学习NN类模型的选择就更多了)。上面的左侧列0和1就是两个预测的标签,对应的不同预测指标。查准率和查全率是一对矛盾的指标,查全率recall衡量的是某标签的预测结果是否涵盖“周全”。原创 2023-01-23 11:28:42 · 1111 阅读 · 1 评论 -
解决ValueError: invalid literal for int() with base 10: ‘0.0‘
问题描述将某个字符类型的字段转为`int`时,以下的两种方法(其中第二种方法是直接用`int()`转换)都报错如题:```python# 1.方法一beat_data['label'] = beat_data['label'].astype(int)原创 2023-01-11 16:59:23 · 1895 阅读 · 0 评论 -
【Pyspark】用from_json将字典列拆分为多列
经过udf返回形式数据后返回字典列数据,或者本身初始数据就是有字典列的。即将字典列中拆分成id和name列。二、解决方案在pyspark中,可以使用函数将DataFrame中的字典列拆分为多列:[1] pyspark 根据字典添加多列[2] UDF函数的使用、UDF传入多个参数、UDF传出多个参数、传入特殊数据类型[3] 官方文档:pyspark.sql.functions.from_json[4] SSS —— Spark Structured Streaming 之单列拆分成多列原创 2022-12-08 02:09:19 · 1540 阅读 · 0 评论 -
解决pandas.ParserError: Error tokenizing data. C error: Expected 12 fields in line 268043, saw 13
如题在使用读取csv数据文件时报错。即在268043行出出现了13列的异常情况,可能是某个字段中数据中有导致读取csv出现13列的异常情况(正常应该是12个字段),因为200万条数据出现3条这种异常情况,那就直接delete掉也不影响模型训练,即在读表时使用跳过这三行:[1] https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html原创 2022-12-05 02:26:46 · 1963 阅读 · 1 评论 -
【数据分析】分析方法 | 业务知识 | 行业分析
一个指标没办法解决复杂的业务问题,这就需要使用多个指标从不同维度来评估业务,也就是使用指标体系。指标体系是从不同维度梳理业务,把指标有系统地组织起来。简而言之,指标体系=指标+体系,所以一个指标不能叫指标体系,几个毫无关系的指标也不能叫指标体系。原创 2022-09-20 01:21:57 · 773 阅读 · 0 评论 -
【Python可视化】绘制学生成绩的雷达图
一、雷达图介绍雷达图,又叫蜘蛛网图、极坐标图。雷达图相当于平行坐标图,其中轴径向排列。二、Python代码栗子:给定某学生的各科成绩,绘制雷达图。步骤:(1)得到自变量和因变量;(2)需要用angles角度数组,将圆周分为dataLength份,然后【闭合】操作。(3)设置雷达图参数。# -*- coding: utf-8 -*-"""Created on Mon Feb 14 15:09:43 2022@author: 86493"""import matplotlib.py原创 2022-02-14 15:33:18 · 7414 阅读 · 0 评论 -
【kaggle】基于xgboost的boston房价预测
学习总结(1)本task其实较为简单。选用最熟悉(简单)的波士顿房价数据集,进行数据分析;另外主要是回顾sklearn的基本用法,复习xgboost模型及其参数的选择。文章目录学习总结一、题目二、数据集分析2.1 占地面积和房价2.2 类别型特征和房价2.3 热力图分析特征相关性三、数据预处理3.1 房价的基本分布3.2 高斯分布四、特征工程4.1 缺失的数据4.2 填充缺失值4.3 提取所需特征4.4 类别型特征编码五、模型5.1 Lasso模型5.2 xgboost模型5.3 模型结果比较Refer原创 2021-12-29 21:19:11 · 5644 阅读 · 10 评论 -
【matplotlib】(task1)matplotlib启程
学习总结(1)多查官方文档:https://matplotlib.org/(2)从图形,布局,文本,样式等多维度系统梳理matplotlib的绘图方法,构建对于绘图方法的整体理解;从绘图API层级,接口等方面阐明matplotlib的设计理念,摆脱只会复制粘贴的尴尬处境。(3)本次学习最好将matplotlib升级到最新版本V3.3.3(2020年12月),否则可能会出现报错。文章目录学习总结一、一个最简单的绘图例子二、Figure的组成三、两种绘图接口作业Reference一、一个最简单的绘图原创 2021-11-16 00:01:03 · 571 阅读 · 0 评论 -
【基础题】不用pandas读取csv文件的成绩数据处理题
学习总结(1)用for的i默认是从0开始,如果想要要从1开始遍历,可以对后面的range处理(2)题目是不用pandas对csv文件(数据之间是逗号间隔)处理,所以需要利用open后readlines后的每行数据,依次找到当前的第一个,位置,然后将前面用过的数据去掉。如下如处理:with open("student.csv") as file: con = file.readlines() # print(con) for i in range(1, len(con)):原创 2021-09-29 20:25:38 · 1805 阅读 · 0 评论 -
【Pandas】concat用法和栗子
一、函数介绍和参数含义比赛中经常用到数据处理,当需要对某些表的列数据进行拼接时则会用到concatAPI,关于直观上的图形拼接栗子可以参考pandas的concat函数和append方法。pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, copy=T原创 2021-09-28 11:41:47 · 680 阅读 · 0 评论 -
数据分析师—岗位分析(峰池)
经常觉得很奇怪怎么辣么多数据分析师的广告,字节的峰池大佬是觉得未来该岗位可能消亡(康康大佬怎么说的同时了解下这个岗位,本文不代表本人观点,请客观理性看待=。=)。本文转自字节跳动推荐算法工程师(知乎ID:峰池)文章目录数据分析师的日常工作取数 — SQL数据清洗 — Python数据可视化 — Tableau统计分析其他数据相关的工作数据报告近期成为月入两万的数据分析师的广告遍地都是,可能会对一些未入行的同学造成错觉。我个人感觉数据分析师这个岗位,可能近几年会消亡。这不意味着这份工作本身不重要,而是转载 2021-07-18 05:48:25 · 1188 阅读 · 2 评论