数据分析
文章平均质量分 69
Ruannn(努力版)
这个作者很懒,什么都没留下…
展开
-
Python数据分析 Pandas3
在数据分析过程中,经常会需要根据某一列或多列把数据划分为不同的组别,然后再对其进行数据分析,如聚合、转换、过滤等。参数columns是分组键,可以是。原创 2024-05-17 22:30:19 · 233 阅读 · 0 评论 -
Python数据分析 Pandas2
sort :如果为 True,则当 df 和 other 的列未对齐时,按other列进行排序对齐。df.loc[行索引]、 df.loc[行索引列表]、df.loc[行索引切片]返回(key,value)对,将每个列名作为键,将列数据的Series对。将行迭代为(索引,系列)对,产生每个行索引值以及包含每行数据的序列。列删除函数,默认在副本上删除指定列,并返回删除列之后的副本。列删除函数,在原数据帧上删除指定列,并返回被删除的列。列删除指令,在原数据帧上删除指定的列,无返回值。原创 2024-05-17 22:17:02 · 575 阅读 · 1 评论 -
Python数据分析——Pandas
查看是否是nan: isnull() 、notnull()、 isna()、notna()Pandas有两种主要的数据结构:系列(Series)、数据帧(DataFrame)。保存数据的文件主要有CSV、Excel、txt和 json,本节主要介绍使用较多的。CSV和Excel文件,txt文件和json的使用与CSV和Excel的使用相似。网络数据的读取使用最多的是网络爬虫,Pandas提供了read_htlm函数读取。网页数据(read_html() 函数是最简单的爬虫,可以爬取静态网页表格数据)。原创 2024-05-17 20:48:24 · 881 阅读 · 0 评论 -
Numpy习题
已知scores.txt文件(见附件)中保存了10位同学的三门课成绩,请编程实现读取文件,计算总分最高的同学,并将该同学的考号和总分打印出来,并写入文件info.txt。文件info.txt中的内容为:总分最高的是:10153450106,分数为:260。2.数据清理 去除索引号。原创 2024-05-17 18:53:33 · 341 阅读 · 0 评论 -
Python数据分析——Numpy4 线性代数
数组的运算大多是元素级的,数组相乘的结果是各对应元素的积组成的数组, 但是矩阵相乘使用的是点积,NumPy库提供用于矩阵乘法的dot函数。numpy.dot(a, b, out=None) 或 a.dot(b,out=None)注意:如果矩阵是奇异的或者非方阵,使用inv函数求逆矩阵,会出现错误。out : ndarray, 可选,用来保存dot()的计算结果,对于两个一维的数组,计算的是这两个数组对应下标元素的乘积之和;对于二维数组,计算的是两个数组的矩阵乘积;计算方阵的乘法逆矩阵(A*B=I)。原创 2024-05-16 22:58:50 · 314 阅读 · 0 评论 -
Python数据分析——Numpy3 数组运算
如果两个数组a和b 形状相同,即满足a.shape == b.shape,那么a*b的结果就是a与b数组对应位相乘。kind 默认为‘quicksort’(快速排序),可设置为’mergesort’归并排序,tuple的形式给出,通常原数组有多少维,输出的tuple中就包含几个数组,序算法的不同在于执行速度,最坏情况性能,所需的工作空间和算法的稳定性。排序数组进行扁平化,再进行排序。对不同形状的数组进行数值计算的方式,通常在相应的元素上进行。order:如果数组包含字段,则表示要排序的字段。原创 2024-05-16 22:50:29 · 253 阅读 · 0 评论 -
Python数据分析——Numpy2 数组操作
swapaxes实际上也是针对轴索引进行变化,区别就在于transpose可以一次传入多个参数,对若干轴进行交换,而swapaxes只能两两置换,且swapaxes(i,j)和。1)使用ravel()创建的新数组实际上是对父数组的引用(即“视图”)。机器学习数据集准备过程中,可以用于将数据列与标签列在水平方向上合并,从而得到带标签的数据集。与insert()函。index:在其之前插入值的索引,可以是序列数据(如元组、列表),实现在。values:要插入的数据,可以是序列数据,但其形状必须与原数组匹配。原创 2024-05-16 22:37:33 · 677 阅读 · 0 评论 -
Python数据分析——Numpy1 数组创建
只能存放同一种数据类型的对象,因此能够确定存储数组所需空间的大小,能够运用向量化运算来处理整个数组,具有较高的运算效率。默认采用空白作为分隔符,将文件中的内容读取进来,并生成矩阵,要求每行的内容数目必须一致,也就是说不能有缺失值。参数low, high是float型,low的默认值为0.0,high的默认值为1.0;不直接在原来的数组上进行操作,而是返回一个新的打乱顺序的数组,并不改变原来的数组。创建开始点为start,结束点为end的,以base为底的幂组成的,num个数的。原创 2024-05-16 21:39:57 · 1872 阅读 · 0 评论 -
python基础语法习题
拍7游戏”规则是:一堆人围成一圈,开始时,任意指定一人说出数字“1”后,一圈人按顺时针方向,每人按整数由小到大的顺序一人一个地报出后续数字“2”、“3”......,当遇到为“7”的整数倍数字或含“7”的数字时,该念这个数字的人需要拍手一下并喊“跳过”(不能念出这个数字)。一个身份证号码的前17位按照一系列计算得到的校验码若与该身份证号码的最后一位相同(身份证号码中最后一位X是罗马数字,代表阿拉伯数字10),说明该身份证号码是正确的身份证号码,否则是错误的身份证号码。每个数字输出占一行。原创 2024-05-16 20:48:13 · 701 阅读 · 0 评论 -
Python数据分析——Py基础语法复习(非常详细版)
使用时需要注意的是,字符串对象是不可变的,所以字符串对象提供的涉及字符串“修改”的方法都是返回修改之后的新字符串,并不对原字符串做任何修改。(2)带数字(参数位置序号,默认从0开始,可调换顺序),如{1}、{2}(3)带关键字(可读性好),如: {name}、{age}通过一个内置的函数eval(),将用户输入的字符串解析为表达式单个数据(也是表达式),若表达式可计算,则计算后返回其值。1.字符串切片还可以设置取子串的间隔,只需要再增加一个步长参数即可,把[n : m]变成[n : m : step]原创 2024-05-16 00:38:58 · 758 阅读 · 0 评论 -
Python数据分析与数据可视化 概念
数据处理聚焦于数据的采集、清理、预处理、分析和挖掘;视觉编码聚焦于对光学图像进行接收、提取信息、加工变化、模式识别及存储显示。的方法,就是在处理大量的数据的时候,将需要的数据精选出来,提取出有用信息,最后形成结论,这样可以方便对数据进行更加详细的研究和概括。写运行结果注意输出的数据格式(列表、数组、元组、Series等的格式)、是否有引号、是否换行等。数据挖掘则是指从大量的、不完全的、有噪声的实际应用数据中,通过。也就是说广义的数据分析除了狭义的数据分析之外,还包括。二、程序代码填空(1分*20)原创 2024-05-15 20:51:13 · 390 阅读 · 0 评论