数据科学库
笔记
qq_42749341
这个作者很懒,什么都没留下…
展开
-
数据科学包16、matplotlib的实例
实例1.函数积分图2.散点图-条形图结合1.函数积分图# 函数积分图import numpy as npimport matplotlib.pyplot as pltfrom matplotlib.patches import Polygondef func(x): return -(x-2)*(x-8) + 40# 将0-10区间等分50份 返回array数组x = np.linspace(0,10)y = func(x)# 构造绘图窗口与坐标轴fig, ax = plt原创 2020-07-26 19:30:09 · 76 阅读 · 0 评论 -
数据科学包15、matplotlib详细介绍
matplotlib详细介绍matplotlib详细介绍1.颜色和样式1)如何调整颜色2)如何调整点型3)如何调整线型4)样式字符串2.三种方式1)pylab方式2)pyplot方式3)面向对象方式3.子图-subplot4.多图-可以创建多个Figure5.网格6.图例7.坐标轴范围的调整8.坐标轴刻度的调整9.添加坐标轴-双坐标轴10.注释11.文字-图形中纯粹的文字标注12.Tex公式13.区域填充14.形状-画填充好的形状15.样式-美化16.极坐标matplotlib详细介绍1.颜色和样式1原创 2020-07-25 21:17:01 · 218 阅读 · 0 评论 -
数据科学包14、matplotlib-6种图形的基本画法
matplotlibmatplotlib-6种图形的基本画法1.numpy补充2.散点图3.折线图4.条形图5.直方图1D直方图2-D直方图(双变量直方分布图)6.饼状图7.箱形图matplotlib-6种图形的基本画法1.numpy补充import numpy as np# 从文件中读取数组# 分隔符:delimiter=','# 跳过哪行:skiprows=1# 需要的列:usecols=(1,4,6)x=np.loadtxt('000001.csv',delimiter=',',sk原创 2020-07-25 10:32:38 · 285 阅读 · 0 评论 -
数据科学包13、实例2:时间事件日志
时间事件日志时间事件日志1.数据读取2.数据清洗1)数据选择2)数据解析3.数据分析1)时间总览2)精力分配3)专注力4)动态时间分配时间事件日志个人时间统计工具。要点:使用 dida365.com 来作为 GTD 工具使用特殊格式记录事件类别和花费的时间,如: “[探索发现] 体验 iMac 开发环境 [3h]”导出数据分析数据1.数据读取2.数据清洗1)数据选择只关心己完成或己达成的事件,即 status != 0 的事件只需要 List Name 和 Title 字段原创 2020-07-24 18:56:03 · 113 阅读 · 0 评论 -
数据科学包12、实例1:股票数据分析
股票数据分析股票数据分析1.股票波动幅度分析增长曲线增长倍数当前增长倍数及复合增长率平均年化增长率股票数据分析具体详见 https://github.com/kamidox/stock-analysis这里假设数据已经下载下来,并且保存在 yahoo-data 目录下。1.股票波动幅度分析增长曲线增长倍数最大增长倍数及最大年化复合增长率计算最低价和最高价之间的收盘价比较,以及增长的倍数和年化复全增长率,这个反应的是一个股票最好的情况下的投资收益情况。当前增长倍数及复合增长原创 2020-07-24 17:57:45 · 230 阅读 · 0 评论 -
数据科学包11、数据可视化
数据可视化数据可视化1.线型图SeriesDataFrame2.柱状图3.直方图4.概率密度图5.带密度估计的规格化直方图6.散布图7.饼图-百分占比8.高级绘图函数数据可视化Pandas 的数据可视化使用 matplotlib 为基础组件。本节主要介绍 Pandas 里提供的比 matplotlib 更便捷的数据可视化操作。1.线型图Series 和 DataFrame 都提供了一个 plot 的函数。可以直接画出线形图。SeriesDataFrame2.柱状图3原创 2020-07-24 16:10:35 · 89 阅读 · 0 评论 -
数据科学包10、pandas高级内容之时间序列
目录时间序列1.python里的datetime模块1)时间差2)字符串和 datetime 转换2.Pandas 里的时间序列3.日期范围1)生成时间范围2)时间频率4.时期及算术运算1)时间序列2)时间的频率转换-asfreq3)季度时间频率4)Timestamp和Period相互转换5.重采样1)OHLC重采样2)通过groupby重采样3)升采样和插值4)时间重采样5)性能6)时间日期解析从文件中读取日期序列自定义时间日期解析函数时间序列时间戳 tiimestamp:固定的时刻 -> p原创 2020-07-23 15:54:50 · 114 阅读 · 0 评论 -
数据科学包9、pandas高级内容之数据IO
数据IO数据IO1.索引及列名2.缺失值处理查看帮助文档3.逐块读取数据-读取数据更快4.保存数据到磁盘5.二进制数据6.其他格式简介数据IO1.索引及列名从磁盘读取数据、将数据保存到磁盘上索引:将一个列或多个列读取出来构成 DataFrame,其中涉及是否从文件中读取索引以及列名类型推断和数据转换:包括用户自定义的转换以及缺失值标记日期解析迭代:针对大文件进行逐块迭代。这个是Pandas和Python原生的csv库的最大区别不规整数据问题:跳过一些行,或注释等等处理不规则的分隔符原创 2020-07-23 14:59:37 · 66 阅读 · 0 评论 -
数据科学包8、pandas高级内容之聚合统计
聚合统计1.数据聚合1)内置聚合函数2)自定义聚合函数agg3)一次性应用多个聚合函数4)给不同的类应用不同的聚合函数-使用 dict 作为参数来实现5)重置索引2.分组运算和转换1)分组数据变换-transform2)距平化-与平均值的差异值3)自定义数据处理apply4)apply 应用示例1.数据聚合分组运算,先根据一定规则拆分后的数据,然后对数据进行聚合运算,如前面见到的 mean(), sum() 等就是聚合的例子。聚合时,拆分后的第一个索引指定的数据都会依次传给聚合函数进行运算。最后再把运算原创 2020-07-23 10:11:12 · 116 阅读 · 0 评论 -
数据科学包7、pandas高级内容之分组运算
pandas高级内容之分组运算1.分组计算1)对series进行分组2)对DataFrame进行分组3)分组中元素个数统计-size4)对分组进行迭代5)分组转化为字典6)按列分组2.其他分组方法1)通过字典进行分组2)通过函数来分组3)通过索引级别进行分组1.分组计算分组计算三步曲:拆分 -> 应用 -> 合并拆分:根据什么进行分组?应用:每个分组进行什么样的计算?合并:把每个分组的计算结果合并起来。1)对series进行分组2)对DataFrame进行分组3)分组原创 2020-07-21 20:12:23 · 62 阅读 · 0 评论 -
数据科学包6、pandas基础之索引
目录pandas基础之索引1)行索引2)列索引3)索引类4)重复索引5)多级索引-层次化索引(1)series多层索引(2)DataFrame 多层索引(3)索引交换及排序(4)按照索引层次进行统计(5)索引与列的转换-set_index,reset_indexpandas基础之索引1)行索引2)列索引3)索引类4)重复索引5)多级索引-层次化索引可以使数据在一个轴上有多个索引级别。即可以用二维的数据表达更高维度的数据,使数据组织方式更清晰,二维数据可读性好。它使用 pd.Multi原创 2020-07-21 19:52:35 · 97 阅读 · 0 评论 -
数据科学库5、pandas基础之基础运算
pandas基础之基础运算1.重新索引1)series-reindex2)DataFrame-reindex2.丢弃部分数据---drop1)广播运算3.映射函数1)apply: 将数据按行或列进行计算2)applymap: 将数据按元素为进行计算4.排序和排名1)排序-sort_values2)排名5.数据唯一性及成员资格1.重新索引1)series-reindex2)DataFrame-reindex2.丢弃部分数据—drop1)广播运算3.映射函数1)apply: 将数原创 2020-07-21 15:59:48 · 83 阅读 · 0 评论 -
数据科学库4、pandas基础之核心数据结构
pandas基础之核心数据结构1.series1)从ndarry创建2)从字典创建3)从标量创建series特性Series 是类 ndarray 对象Series 是类字典对象标签对齐操作name属性2.DataFrame1)从字典创建2)从结构化数据中创建3)从字典创建4)从元祖字典创建5)从series创建DataFrame的特性1)列选择/增加/删除2)使用 assign() 方法来插入新列3)索引和选择4)数据对齐5)使用 numpy 函数3.Panel1.seriesSeries 是一维带标原创 2020-07-21 15:28:48 · 243 阅读 · 0 评论 -
数据科学库3、pandas入门(2)
pandas一、在 ipython notebook 环境下 pandas的快速入门1.打开ipython notebook 操作2.处理丢失数据1) 构造出二维的DataFrame ,其中包含一些空数据2) 删除任何缺少数据的行-返回复制的3) 填充丢失的数据--返回复制的4) 判断一个数据集里面是否包含有空数据3.数据运算1)空数据不参与运算2)平均值3)累加值4)广播及shift函数5)将函数用于数据-apply6)直方图化7)字符串的处理方法4.数据合并1)SQL合并2)插入一行5.数据分组统计6数原创 2020-07-21 10:45:23 · 89 阅读 · 0 评论 -
数据科学库 2、pandas入门(1)
这里写目录标题1、pandas(1)pandas简介(2)pandas能做什么(3)ipython简介(4)python与ipython命令行的区别2、pandas核心数据结构创建(1)series创建(DataFrame创建)1、pandas(1)pandas简介pandas是python里分析结构化数据的工具集基础是 numpy:高性能矩阵运算图形库 matplotlib:提供数据可视化(2)pandas能做什么结构化数据分析数据挖掘(3)ipython简介(4)python与ip原创 2020-07-19 16:28:42 · 147 阅读 · 0 评论 -
数据科学库 1、numpy
1、numpy的基本属性(1)定义import numpy as npa=np.array([[1,2,3], [2,3,4]])print(a)#[[1 2 3] [2 3 4]](2)维数print("number of dim:",a.dim)# number of dim: 2(3)形状print("shape:",a.shape)# shape: (2, 3)(4)大小print("size:",a.size)# size: 6原创 2020-07-10 09:43:24 · 404 阅读 · 0 评论