数据分析
文章平均质量分 71
====数据分析——>numpy、pandas、matplotlib
Star星屹程序设计
编程新手,个人记笔记,方便日后看,很多东西记着只是为了自己方便。。喷子请绕道!!!
展开
-
[Pandas]——csv存储注意事项
处理数据得到结果时,很多时候我们会保存为csv格式文件,这里就记录下存储相关的内容一、csv文件的两种存储方式1、直接存储对存储后的list数据先转成DataFrame格式进行直接存储#一次性存储到csv文件def save2csv(position, tensor_list, filename): total_list = [[info[0], info[1]] for info in zip(position, tensor_list)] df = pd.Da.原创 2022-04-06 18:24:59 · 2237 阅读 · 0 评论 -
matplotlib绘图
图标英文显示设置:正常以字符串形式传进去字串,英文显示格式不是很美观,为了让文字更美观点,在书写时以这种格式写:r'$string$' 在这里,如果需要特殊数学字符使用 \ 转义,空格也需要转义 比如:r'$This\ is\ the\ some\ text.\ \mu\ \sigma_i\ \alpha_t$'一、figure窗口及坐标轴设置plt.figure(figsize = (20, 8), dpi = 80) 窗口,用于展示图片 1、figure图原创 2021-10-10 22:38:16 · 230 阅读 · 1 评论 -
pandas——离散化(分组、区间化)
一、离散化通常对于我们不想要连续的数值,我们可将其离散化,离散化也可称为分组、区间化。Pandas为我们提供了方便的函数cut():pd.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False)参数解释:x:需要离散化的数组、Series、DataFrame对象 bins:分组的依据 right:传入False则指定左边为闭端1、离散化操作import pa原创 2020-11-24 11:25:58 · 3520 阅读 · 4 评论 -
数据分析及matplotlib基础绘图
数据分析:是用适当的方法收集来的大量数据进行分析,帮助人们作出判断,以便采取适当的行动。数据分析的重要性:python数据科学的基础,是机器学习课程的基础。一、matplotlib1、matplotlib是什么matplotlib:最流行的python底层绘图库,主要做数据可视化图表,名字取材于MATLAB,模仿MATLAB构建2、matplotlib优势(1)能将数据进行可视化,更直观的呈现(2)使数据更加客观,更具说服力3、matplotlib基础要素原创 2020-10-28 17:17:02 · 509 阅读 · 0 评论 -
matplotlib绘制常用统计图
一、绘制散点图plt.scatter(x, y) :绘制散点图要点简单案例:假设某地3,10月份每天白天的最高气温(分别位于列表a, b),那么此时如何寻找气温随时间变化的某种规律?a = [17,16, 11, 12, 11, 12, 6, 6, 7, 8, 9, 12, 15, 14, 17, 18, 21, 16, 17, 20, 14, 15, 15, 15, 19, 21, 22, 22, 22, 22, 23]b = [26, 26, 28, 19, 21, 17, 1原创 2020-10-30 22:15:37 · 914 阅读 · 0 评论 -
NumPy概述及数值型数据处理
一、NumPy概述1、什么是numpy?NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。一个在python中做科学计算的基础库,重在数值计算,也是大部分python科学计算库的基础库,多用在大型、多维数组上执行数值运算NumPy 的前身 Numeric 最早是由 Jim Hugunin 与其它协作者共同开发,2005 年,Travis Oliphant 在 Numeric 中结合了另一原创 2020-11-01 12:45:59 · 768 阅读 · 0 评论 -
NumPy读取本地数据和索引
一、轴(axis)在numpy中可以理解为方向,使用0,1,2...数字表示,对于一个一维数组,只有一个0轴;对于2维数组(shape(2,2)),有0轴和1轴;对于三维数组(shape(2,2,3)),有0,1,2轴二、numpy读取数据(不经常使用<了解>)1、读取文件类型2、读取文件的方法unpack参数:矩阵转置现在这里有一个英国和美国各自YouTube多个视频的点击,喜欢,不喜欢,评论数量(["views", "likes", "dis原创 2020-11-01 22:01:03 · 579 阅读 · 0 评论 -
NumPy中的nan和常用方法
一、数组的拼接对两组数据进行联合分析时,需要使用到数组拼接二、交换数组的行列竖直拼接的时候:每一列的意义必须相同。如果每一列的意义不同,这个时候就应该交换某一组的列,让其和另外一类相同,交换时也是使用索引进行操作方法介绍:np.zeros((行数,列数)) 创建一个全0的数组 np.zeros().astype(int)显示指定创建数组内元素的类型 np.ones((行数,列数)) 创建一个全1的数组 np.ones().astype(in原创 2020-11-07 19:38:14 · 6355 阅读 · 0 评论 -
pandas(series和读取外部数据)
一、pandas概述1、pandas介绍pandas 是基于NumPy的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。Pandas是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由..原创 2020-11-08 12:17:09 · 1708 阅读 · 0 评论 -
DataFrame(pandas数据结构&)
一、DataFrameDataFrame 是 Python 中 Pandas 库中的一种数据结构,是一种二维表。它类似 excel,或许说它可能有点像 matlab 的矩阵,但是 matlab 的矩阵只能放数值型值(当然 matlab 也可以用 cell 存放多类型数据),DataFrame 的单元格可以存放数值、字符串等,这就和 excel 表很像。同时 DataFrame 可以设置列名 columns 与行名 index,可以像 matlab 一样通过位置获取数据,也可以通过列名和行名定位。原创 2020-11-10 21:22:17 · 2916 阅读 · 1 评论 -
pandas中的统计方法、字符串离散化
常用方法:df[属性名].unique() 去除对应列的重复值,并将其转换成列表 可以用来去重 df[属性名].tolist() 将属性列中的内容转换成列表 属性列——>列表 df[属性列].str.split(分隔符) 切割字符串 pandas内置的str列内置的方法 现在我们有一组从2006年到2016年1000部最流行电影的数据,我们呢想知道这些电影数据中评分的平均分,导演的人数等信息,应该如何操作?数据来源:https://www.k.原创 2020-11-11 18:05:15 · 795 阅读 · 0 评论 -
pandas数据合并、分组聚合及其使用
一、pandas数据合并1、join:默认情况下把行索引相同的数据合并在一起join方法是基于index连接dataframe,merge方法是基于column连接,连接方法有内连接,外连接,左连接和右连接,与merge一致。join操作按照左边原则进行,左边有几行,结果就会有几行,列为join操作双方列的总和,在左边未出现的赋值为NaNimport pandas as pdimport numpy as npdef myPd(): t1 = pd.DataFrame(.原创 2020-11-14 22:19:45 · 7934 阅读 · 0 评论 -
pandas——时间序列、重采样及案例
在使用Python进行数据分析时,经常会遇到时间日期格式处理和转换,特别是分析和挖掘与时间相关的数据,比如量化交易就是从历史数据中寻找股价的变化规律。Python中自带的处理时间的模块有datetime,NumPy库也提供了相应的方法,Pandas作为Python环境下的数据分析库,更是提供了强大的日期数据处理的功能,是处理时间序列的利器。时间序列(time series)数据是一种重要的结构化数据形式,。在多个时间点观察或测量到的任何时间都可以形成一段时间序列。很多时间, 时间序列是固定频率的..原创 2020-11-18 18:09:34 · 2914 阅读 · 2 评论