python数据分析
文章平均质量分 51
From Star.
I'm going on an adventure!
展开
-
pandas数据操作总结
pandas数据结构Series:索引在左,值在右DataFrameSeries:属性:values(值):obj.valuesindex(索引):obj.indexname:obj4.name = 'population' obj4.index.name = 'state'创建Series:obj = pd.Series([4, 7, -5, 3])obj2 = pd.Series([4, 7, -5, 3], ..原创 2021-03-27 18:51:01 · 158 阅读 · 2 评论 -
NumPy数据操作总结
属性shape:表示数组的各维度大小ndim:表示数据维度dtype:表示数组数据类型的对象创建ndarray的方式方法用法解释array函数arr = np.array(data)data为数组zeros函数arr = np.zeros(10)变量为NumPy数组长度empty函数np.empty((2, 3, 2))变量为空数组的各维度大小arange函数np.arange(15)ndarray的数据类型..原创 2021-03-22 21:18:42 · 374 阅读 · 0 评论 -
【利用python进行数据分析】学习笔记-第7章 数据清洗和准备——数据转换
7.3 字符串操作7.3.1 字符串对象方法# 以逗号分隔的字符串可以⽤split拆分成数段In [134]: val = 'a,b, guido' In [135]: val.split(',')Out[135]: ['a', 'b', ' guido'] # split常常与strip⼀起使⽤,以去除空⽩符(包括换⾏符)In [136]: pieces = [x.strip() for x in val.split(',')] In [137]: piecesO原创 2021-04-04 17:11:47 · 234 阅读 · 0 评论 -
【利用python进行数据分析】学习笔记-第7章 数据清洗和准备——数据转换
7.2 数据转换7.2.1 移除重复数据In [45]: data = pd.DataFrame({'k1': ['one', 'two'] * 3 + ['two'], ....: 'k2': [1, 1, 2, 3, 3, 4, 4]}) In [46]: dataOut[46]: k1 k20 one 11 two 12 one 23 two 34 one 35 two 46 t原创 2021-04-03 21:04:18 · 445 阅读 · 5 评论 -
【利用python进行数据分析】学习笔记-第7章 数据清洗和准备——处理缺失数据
第7章 数据清洗和准备7.1 处理缺失数据7.1.1 查看缺失数据# pandas使⽤浮点值NaN(Not a Number)表示缺失数据。我们称其为哨兵值,可以⽅便的检测出来In [10]: string_data = pd.Series(['aardvark', 'artichoke', np.nan, 'avocado']) In [11]: string_dataOut[11]:0 aardvark1 arti原创 2021-04-01 15:37:52 · 285 阅读 · 2 评论 -
【利用python进行数据分析】学习笔记-第6章 数据加载、存储与文件格式——Web APIs交互和数据库交互
6.3 Web APIs交互# 为了搜索最新的30个GitHub上的pandas主题,可以发⼀个HTTP GET请求,使⽤requests扩展库In [113]: import requests In [114]: url = 'https://api.github.com/repos/pandas-dev/pandas/issues'In [115]: resp = requests.get(url) In [116]: respOut[116]: <Response原创 2021-03-28 18:33:33 · 124 阅读 · 0 评论 -
【利用python进行数据分析】学习笔记-第6章 数据加载、存储与文件格式——二进制数据格式
6.2 二进制数据格式# 实现数据的⾼效⼆进制格式存储最简单的办法之⼀是使⽤Python内置的pickle序列化# pandas对象都有⼀个⽤于将数据以pickle格式保存到磁盘上的to_pickle⽅法In [87]: frame = pd.read_csv('examples/ex1.csv')In [88]: frameOut[88]: a b c d message0 1 2 3 4 hello1 5 6 7 8 world原创 2021-03-28 18:31:43 · 151 阅读 · 0 评论 -
【利用python进行数据分析】学习笔记-第6章 数据加载、存储与文件格式——读写文本格式的数据
第6章 数据加载、存储与文件格式输入输出分类:读取文本文件和其他更高效的磁盘存储格式加载数据库中的数据利用Web API操作网络资源6.1 读写文本格式的数据pandas中的解析函数函数说明read_csv从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为逗号read_table从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为制表符("t’)read_fwf读取定宽列格式数据(也就是说,没有分隔符)read_clipbo原创 2021-03-28 14:27:33 · 372 阅读 · 6 评论 -
【利用python进行数据分析】学习笔记-第5章 pandas入门——汇总和计算描述统计
5.3 汇总和计算描述统计5.3.1 约简与汇总统计In [230]: df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5], .....: [np.nan, np.nan], [0.75, -1.3]], .....: index=['a', 'b', 'c', 'd'], .....: columns=['one', 'two'])原创 2021-03-27 10:33:55 · 257 阅读 · 2 评论 -
【利用python进行数据分析】学习笔记-第5章 pandas入门——pandas的基本功能
5.2 基本功能5.2.1 重新索引In [91]: obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c']) In [92]: objOut[92]:d 4.5b 7.2a -5.3c 3.6dtype: float64# ⽤该Series的reindex将会根据新索引进⾏重排In [93]: obj2 = obj.reindex(['a', 'b', 'c', '原创 2021-03-26 18:09:47 · 165 阅读 · 2 评论 -
【利用python进行数据分析】学习笔记-第5章 pandas入门——pandas的数据结构
第5章 pandas入门引用惯例:import pandas as pd5.1 pandas的数据结构介绍5.1.1 SeriesSeries是⼀种类似于⼀维数组的对象,它由⼀组数据(各种NumPy数据类型)以及⼀组与之相关的数据标签(即索引)组成。Series的字符串表现形式为:索引在左边,值在右边。由于我们没有为数据指定索引,于是会⾃动创建⼀个0到N-1(N为数据的⻓度)的整数型索引。In [11]: obj = pd.Series([4, 7, -5, 3]) In [12]: o原创 2021-03-26 13:22:07 · 308 阅读 · 2 评论 -
【利用python进行数据分析】学习笔记-第4章 NumPy基础
第4章 NumPy基础:数组和矢量运算引用惯例:import numpy as np基于NumPy的算法要比纯python快10到100倍(甚至更快),并且使用更少的内存。4.1NumPy的ndarray:一种多维数组对象ndarray是一个通用的同构数据多维容器,即其中的元素必须是相同类型的。每个数组都有⼀个shape(⼀个表示各维度⼤⼩的元组)和⼀个dtype(⼀个⽤于说明数组数据类型的对象)4.1.1 创建ndarray使⽤array函数:接受⼀切序列型的对象(包括其他数组),然后原创 2021-03-20 16:11:53 · 497 阅读 · 7 评论