Task02Numpy常用函数

1、导入鸢尾属植物数据集,保持文本不变。

用到函数numpy.load(),最简单的机制就是直接在括号里写文件路径,但有些参数设置不同的值会有不用作用:
1、skiprows是指跳过前1行, 如果设置skiprows=2, 就会跳过前两行。
2、dtype:元素的数据类型如int,float,str等。
3、comment的是指, 如果行的开头为#就会跳过该行。
4、usecol[0]是指只使用第零列, unpack=True是指会把每一列当成一个向量输出, 而不是合并在一起。
5、converters参数, 这个是对数据进行预处理的参数, 我们可以先定义一个函数,这里的converters是一个字典, converters={0:add_one}表示第零列使用函数add_one来进行预处理。
下面导入鸢尾属植物数据集,保持文本不变。
在这里插入图片描述
在这里插入图片描述

2、求出鸢尾属植物萼片长度的平均值、中位数和标准差(第1列,sepallength)

这里主要运用了三个函数:1、np.mean()求均值
2、np.median()求中位数
3、np.std()求标准差
过程如下:
在这里插入图片描述
在这里插入图片描述

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据分析实例 这⼏天刚刚学了数据分析,今天就拿⼀些数据来做⼀个简单的分析练练⼿。有什么不对的地⽅欢迎批评指教。 样本数据 从第⼀列开始,这些字段分别是,公司名称,⽇期,开盘价,最⾼价,最低价,收盘价,成交量。 1.通过收盘价分析股价⾼低对成交量的影响以及这只股票近期的价格趋势 第⼀步先加载收盘价和成交量 c, v = np.loadtxt('data.csv', delimiter=',', usecols=(6, 7), unpack=True ) 得到的数据如下: c array([336.1 , 339.32, 345.03, 344.32, 343.44, 346.5 , 351.88, 355.2 , 358.16, 354.54, 356.85, 359.18, 359.9 , 363.13, 358.3 , 350.56, 338.61, 342.62, 342.88, 348.16, 353.21, 349.31, 352.12, 359.56, 360. , 355.36, 355.76, 352.47, 346.67, 351.99]) v array([21144800., 13473000., 15236800., 9242600., 14064100., 11494200., 17322100., 13608500., 17240800., 33162400., 13127500., 11086200., 10149000., 17184100., 18949000., 29144500., 31162200., 23994700., 17853500., 13572000., 14395400., 16290300., 21521000., 17885200., 16188000., 19504300., 12718000., 16192700., 18138800., 16824200.]) 第⼆步计算收盘价的平均价格及加权平均价格 平均价格 mean = np.average(c) # 相当于np.mean(c) mean 得到平均价格为: 351.0376666666667 以成交量为权重的平均价格 vmean = np.average(c, weights=v) vmean 得到的加权平均价格为: 350.5895493532009 以时间为权重的平均价格 通过观察,数据是通过时间升序排列的 t = np.arange(len(c)) # 模拟时间权重 tmean = np.average(c, weights=t) tmean 得到的加权平均价格为: 352.4283218390804 绘制时间-收盘价曲线图 import matplotlib.pyplot as plt import pandas as pd from datetime import datetime # 读取时间序列 datelist = pd.read_csv('data.csv', header=None)[1] # 对时间序列进⾏格式化操作 x = [] for i in datelist: i = datetime.strptime(i, '%d-%m-%Y') x.append(datetime.strftime(i, '%Y-%m-%d')) # 调整画布 plt.figure(figsize=(8, 4)) plt.subplot(111, facecolor='black') # 画出时间-收盘价曲线图 plt.plot(x, c, color='g') # 对图形进⾏调整 plt.title('时间-收盘价曲线图') plt.grid(axis='x', alpha=.2) plt.xticks(rotation=60) plt.show() 结论: 以成交量为权重的平均价格相⽐平均价格要低⼀些,说明股票的价格对成交量的影响是价格越低,其成交量越⾼。 以时间为为权重的平均价格相⽐平均价格要⾼⼀些,再观察时间-收盘价曲线图,可以得出结论,时间越靠后,价格越稳定,⽐较前⼏天的 价格数据,后⾯时间的股价要较⾼⼀些。 2.计算这些⽇期股票的收益率并绘制图表 ⾸先第⼀步先加载出每⼀天的收盘价 c = np.loadtxt('data.csv', delimiter=',', usecols=(6, ), unpack=True) c array([336.1 , 339.32, 345.03, 344.32, 343.44, 346.5 , 351.88, 355.2 , 358.16, 354.54, 356.85, 359.18, 359.9 , 363.13, 358.3 , 350.56, 338.61

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值