数据分析——pandas作业2

最新推荐文章于 2024-07-19 17:32:48 发布

Seasons in the snow

最新推荐文章于 2024-07-19 17:32:48 发布

阅读量885

点赞数 2

分类专栏：数据分析文章标签：数据分析

本文链接：https://blog.csdn.net/m0_37940048/article/details/119297035

版权

数据分析专栏收录该内容

8 篇文章

订阅专栏

第一题

1.读取五粮液2020.xlsx 数据
2.查看该数据的基本信息
3.计算每一天各指标的差异值
4.计算其 pre_close 的增长率
5.将 pre_close 的增长率添加至数据中(新增列)
6.将 pct_change 该列呈现的 NaN 用0填充
7.查看 pre_close 与 pct_change 的相关性
8.将 pct_change 这列乘以100 保留两位小数成为百分比

1.读取五粮液2020.xlsx 数据

代码

import numpy as np
import pandas as pd

wly_data = pd.read_excel('五粮液2020.xlsx')
print(wly_data)

运行结果

2.查看该数据的基本信息

代码

print(wly_data.info())
print(wly_data.describe())

运行结果

3.计算每一天各指标的差异值

代码

print(wly_data.loc[:,'open':'pre_close'].diff())

运行结果

4.计算其 pre_close 的增长率

代码

print(wly_data['pre_close'].pct_change())

运行结果

5.将 pre_close 的增长率添加至数据中(新增列)

代码

wly_data['pct_change'] = wly_data['pre_close'].pct_change()
print(wly_data)

运行结果

6.将 pct_change 该列呈现的 NaN 用0填充

代码

wly_data['pct_change'].fillna(0,inplace=True)
print(wly_data)

运行结果

7.查看 pre_close 与 pct_change 的相关性

代码

print(wly_data[['pre_close','pct_change']].corr())

运行结果

8.将 pct_change 这列乘以100 保留两位小数成为百分比

代码


wly_data['pct_change'] = wly_data['pct_change'].apply(lambda x: '%.2f%%'%(x*100))
print(wly_data)

运行结果

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Seasons in the snow

关注关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python 数据分析之 3 —— pandas 数据分析

Junds0的博客

12-19

2631

根据索引名称（label）删除指定的行（axis = 0）或列（axis = 1），inplace指定是否删除原数据。loc方法的参数很灵活，名称、名称列表、条件表达式均可，需根据实际情况灵活使用。DataFrame.columns 返回DataFrame的列名Index对象。DataFrame.loc[行索引名或条件表达式,列索引名或条件表达式]DataFrame.head(n) #DataFrame数据的前n行。DataFrame.columns #DataFrame的列索引。

机器学习实战——疫情数据分析与预测

07-27

10万+

机器学习如何做到疫情可视化——疫情数据分析与预测实战本文将带领大家爬取11个国家以及中国31个省（自治区、直辖市）在2022.0101-2022.06.19的新冠疫情数据。并且采用机器学习模型对2022.6.20-2022.6.30每一天的全国确诊人数、死亡人数、治愈人数进行预测，**做出疫情可视化图形并且求出最终的相关系数R2！...

2 条评论您还未登录，请先登录后发表或查看评论

用实战玩转Pandas数据分析.pdf

11-25

用实战玩转Pandas数据分析.pdf

Pandas数据分析-结课作业

none的博客

01-13

357

文章目录DataWhale-Pandas数据分析-Task11 DataWhale-Pandas数据分析-Task11 记录DataWhale的Pandas数据分析的学习过程，使用的教材为 joyful-pandas。 Task10是pandas的时间序列数据的处理，内容基本可以分为四个部分，第一部分介绍了pandas中时序数据的四个基本对象；第二部分介绍了时间戳的构造，索引，dt对象；第三部分介绍了时间差的构造，dt对象和运算；第三部分介绍了日期偏执对象及其常用方法；第四部分介绍了时序滑动窗口和分组。本篇

数据分析——Pandas作业1

m0_37940048的博客

07-30

638

目录第一题第二题第一题 score = pd.Series(data=[90,95,85,78,np.NAN,96,94,np.NAN,80,87,86,83],index=range(1,13),name='score') score.index.name = "class" score （1）创建一个Series对象（2）查看1-5班的成绩（3）查看哪个班级的成绩没有录入（4）获取11班的成绩（5）在每个人的成绩加5分（6）找出成绩在90分以上的班级代码 import numpy

数据分析——pandas作业3

m0_37940048的博客

08-06

455

目录第一题1.读取lianjia.csv文件里的数据2.观察结构，调整列索引顺序3.增加一个列关于目前状况（state），是否卖出状态随机设定4.查找楼层低的房子（这里提取低楼层）5.电梯这列存在缺失值,想办法处理下缺失值第一题 1.读取lianjia.csv文件里的数据 2.观察结构，调整列索引顺序(Region",“Garden”,“Layout”,“Floor”,“Year”,“Size”,“Elevator”,“Direction”,“Renovation”,“Price”) 3.增加一个列关于

Python数据分析—Pandas作业一

对流层的酱猪肘~的博客

01-25

479

Day1练习一练习二练习三导入所需要的库 import numpy as np import pandas as pd 练习一通过 Pandas 创建学生成绩表的 excel 文件 stu_names = ["胡歌","林更新","金世佳","丑娟"] courses = ['语文', '数学', '英语', 'Python', '体育'] data = np.array([[87., 74., 98., 84., np.nan],[79., 69., 61., 99., np.nan],[84.,

课程作业2——Pandas入门基本操作

2301_80392115的博客

07-19

1434

直播链接：【Pandas入门-哔哩哔哩】 https://b23.tv/8QxAQMX笔记用到的资料：https://pan.quark.cn/s/bc1db642d867。

SCAU数据挖掘与数据分析——熟悉matplotlib 和pandas包——画花相关数据的直方图，散点图，箱线图

xtsaixuexi的博客

03-16

421

在python中使用matplotlib等包，结合iris Excel表，实现直方图，散点图与箱线图。5）给图片添加一些标签，说明图片某个对象，例如，直方图上直方柱上添加数字（选做）。3）设计并调整图的标题：大小为20（可任意调整），加粗。6）以上代码需要给出python代码，和运行后的结果图。1）调整散点图坐标刻度，相邻刻度相差2。4）给出legend。

西电数据挖掘作业——医院数据处理

03-13

这个项目涵盖了数据挖掘的基础流程，包括数据获取、数据理解、数据清洗、特征工程、数据分析以及结果可视化等关键步骤。首先，数据获取是任何数据挖掘项目的起点。在这个作业中，我们可能从医院信息系统或其他医疗...

Python爬虫数据可视化分析大作业.zip

05-29

Python爬虫数据可视化分析大作业，该爬虫爬取拉勾网用户想要查询的地区的python相关招聘信息,并且进行数据处理与分析可视化。

Python数据分析大作业 4000+字图文分析文档销售分析 +完整python代码

07-16

根据某商场货物销售数据利用python实现数据可视化进行分析代码2000+行文档预览：https://blog.csdn.net/weixin_45741872/article/details/118787250

Python数据分析大作业 2000+字图文分析文档疫情分析+完整python代码

07-16

根据某法国疫情公开数据利用python实现数据可视化进行分析代码300+行文档预览：https://blog.csdn.net/weixin_45741872/article/details/118787972

python可视化大作业_python 爬虫初探和简单数据分析及可视化，帮学妹写个大作业...

weixin_34013170的博客

01-29

3990

学妹期末大作业基于Python的十年(2009年~2018年)电影票房前25位分析根据URL“http://www.cbooo.cn” 通过代码爬取2009-2018每年票房排名前25的影片名称、类型、总票房(万)、平均票价、场均人次及国家及地区的信息，并按照以下要求完成分析。1．按年统计1) 不同类型电影的平均票房2) 不同国家及地区电影在前25排名中的占比2．分析十年间1) 每年票房冠军的...

上海餐饮数据分析涉及到的Pandas函数

07-31

463

涉及到一些常用的Pandas函数

Python数据分析大作业 4000+字图文分析文档销售分析

Obliviate的博客

07-16

2810

数据来自某商场，具体商业数据保密

python数据分析前端招聘信息分析大作业

weixin_47794791的博客

01-10

697

1.导入库和数据表 #导入 import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import re import warnings from pyecharts import options as opts import numpy as np #导入数据表 data=pd.read_excel('data.xlsx') 2.查看表数据是否导入成功和审核数据 #查看 print(data.head(

panda经典四道题期末考核分享

THREEFUCT的博客

01-06

1709

第一题（10分）某班级部分学生的预处理成绩如下：杭念云,腾望舒,邢苍,祈思慧,端木尧,贸柳,越朝,空晴虹,王白筠,蒙思雅 88,67,56,90,75,76,74,79,-20,69 1、使用以上数据创建一个Series（姓名为标签，成绩为值） 2、将小于0的成绩改为0 3、假设他们的平时分都是80分，最终成绩 = 平时分 * 30% + 成绩 * 70%，将Series中的成绩都转换为最终成绩 4、按最终成绩按从低到高排序 5、求平均成绩最终打印：最后的series内容和平均成绩 df = pd.

【大数据应用技术】作业八｜爬虫综合大作业（下）

weixin_30914981的博客

06-12

1168

本次所以的要求来自：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3075 前言本次作业是爬取拉勾网python相关岗位的信息，通过爬取岗位id、城市、公司全名、福利待遇、工作地点、学历要求、工作类型、发布时间、职位名称、薪资、工作年限等数据并对其进行数据分析从而得出相应结论。网页爬虫 1.代理IP 在爬取数据之...

pandas数据分析大作业

最新发布

12-26

### 使用 Pandas 进行数据分析的大作业示例 #### 项目背景为了更好地理解和掌握 Pandas 库的功能及其在实际数据分析中的应用，本大作业旨在通过对一个具体的数据集进行全面分析来展示如何利用 Pandas 完成数据清洗、探索性分析以及可视化等工作流程。 #### 数据获取与准备选择公开可用的鸢尾花(Iris)数据集作为本次项目的样本数据源。该数据集中包含了不同种类鸢尾花卉的各项测量指标，非常适合用于入门级别的机器学习算法训练和测试[^1]。 ```python import pandas as pd from sklearn.datasets import load_iris # 加载鸢尾花数据集并转换为 DataFrame 格式 data = load_iris() df = pd.DataFrame(data.data, columns=data.feature_names) df['species'] = data.target ``` #### 数据清理与预处理对于任何真实世界里的原始数据来说，在正式进入建模阶段之前都需要经历必要的清洁工作以提高模型性能。这里主要涉及缺失值填充、异常点检测等方面的操作： - **检查是否存在缺失值** ```python print(df.isnull().sum()) ``` 由于 Iris 数据集本身质量较高，并不存在明显的缺失情况；但在其他情况下，则需根据具体情况采取相应的措施来进行填补或删除处理。 - **查看是否有重复记录** ```python duplicate_rows_df = df[df.duplicated()] print("number of duplicate rows: ", duplicate_rows_df.shape[0]) ``` 同样地，Iris 数据集中也没有发现重复项的存在。如果存在大量冗余信息的话，应该考虑去除这些不必要的条目以免影响后续计算效率。 #### 探索性数据分析 (EDA) ##### 基础统计描述借助于 `describe()` 方法可以快速获得数值型特征列的基本统计数据概览，包括均值(mean)、标准差(stddeviation)等参数。 ```python description = df.describe(include='all') print(description) ``` ##### 可视化分布状况绘制直方图有助于观察各个属性之间的关系模式及趋势变化规律。此处采用 Seaborn 库辅助完成绘图任务。 ```python import seaborn as sns sns.pairplot(df, hue="species", markers=["o", "s", "D"]) plt.show() ``` 上述代码片段将会生成一张散点矩阵图，其中不同的标记形状代表了三种类型的鸢尾植物个体差异所在之处。 #### 结果解释与总结经过一系列基于 Pandas 的操作之后，已经能够较为全面深入地了解到所选主题范围内的重要知识点。这不仅限于简单的读取文件内容或是简单聚合运算等功能层面的知识积累，更重要的是培养起了一套完整的思考框架——即从问题定义出发直至得出结论整个过程都离不开严谨细致的态度支撑。

数据分析——pandas作业2

目录

第一题

1.读取 五粮液2020.xlsx 数据

2.查看该数据的基本信息

3.计算每一天各指标的差异值

4.计算其 pre_close 的增长率

5.将 pre_close 的增长率添加至数据中(新增列)

6.将 pct_change 该列 呈现的 NaN 用0填充

7.查看 pre_close 与 pct_change 的相关性

8.将 pct_change 这列乘以100 保留两位小数 成为百分比

1.读取五粮液2020.xlsx 数据

6.将 pct_change 该列呈现的 NaN 用0填充

8.将 pct_change 这列乘以100 保留两位小数成为百分比