![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python数据分析笔记
JabinY
这个作者很懒,什么都没留下…
展开
-
数据分析笔记_第十三章_Python建模库介绍
Python建模库介绍1 pandas与模型代码的接口pandas与其它分析库通常是靠NumPy的数组联系起来的。将DataFrame转换为NumPy数组,可以使用.values属性:In [10]: import pandas as pdIn [11]: import numpy as npIn [12]: data = pd.DataFrame({....: 'x0': [1, 2, 3, 4, 5],....: 'x1': [0.01, -0.01, 0.25, -4.1, 0.],.原创 2020-08-14 16:38:04 · 176 阅读 · 0 评论 -
数据分析笔记_第十二章_pandas高级应用
pandas高级应用1 分类数据背景和目的表中的一列通常会有重复的包含不同值的小集合的情况。unique和value_counts,它们可以从数组提取出不同的值,并分别计算频率In [10]: import numpy as np; import pandas as pdIn [11]: values = pd.Series(['apple', 'orange', 'apple',....: 'apple'] * 2)In [12]: valuesOut[12]:0 apple1原创 2020-08-14 15:25:54 · 137 阅读 · 0 评论 -
数据分析笔记_第十一章_时间序列
时间序列1 日期和时间数据类型及工具Python标准库包含用于日期(date)和时间(time)数据的数据类型,而且还有日历方面的功能。我们主要会用到datetime、time以及calendar模块。datetime.datetime(也可以简写为datetime)是用得最多的数据类型:In [10]: from datetime import datetimeIn [11]: now = datetime.now()In [12]: nowOut[12]: datetime.dateti原创 2020-08-13 16:03:10 · 212 阅读 · 0 评论 -
数据分析笔记_第十章_数据聚合与分组运算
数据聚合与分组运算1 GroupBy机制首先来看看下面这个非常简单的表格型数据集(以DataFrame的形式):In [10]: df = pd.DataFrame({'key1' : ['a', 'a', 'b', 'b', 'a'],....: 'key2' : ['one', 'two', 'one', 'two', 'one'],....: 'data1' : np.random.randn(5),....: 'data2' : np.random.randn(5)})In [11原创 2020-08-13 15:01:15 · 213 阅读 · 0 评论 -
数据分析笔记_第九章_绘图和可视化
第九章 绘图和可视化学习本章代码案例的最简单方法是在Jupyter notebook进行交互式绘图。在Jupyter notebook中执行下面的语句:%matplotlib notebook1 matplotlib API入门matplotlib的通常引入约定是:In [11]: import matplotlib.pyplot as pltFigure和SubplotIn [17]: ax1 = fig.add_subplot(2, 2, 1)这条代码的意思是:图像应该是2×2原创 2020-08-12 16:53:20 · 236 阅读 · 0 评论 -
数据分析笔记_第八章_数据规整:聚合、合并和重塑
数据规整:聚合、合并和重塑1 层次化索引层次化索引(hierarchical indexing)是pandas的一项重要功能,它使你能在一个轴上拥有多个(两个以上)索引级别。创建一个Series,并用一个由列表或数组组成的列表作为索引:In [9]: data = pd.Series(np.random.randn(9),...: index=[['a', 'a', 'a', 'b', 'b', 'c', 'c','d', 'd'],...: [1, 2, 3, 1, 3, 1, 2, 2原创 2020-08-12 14:43:23 · 209 阅读 · 0 评论 -
数据分析笔记_第七章_数据清洗和准备
数据清洗和准备1 处理缺失数据在pandas中,我们采用了R语言中的惯用法,即将缺失值表示为NA,它表示不可用not available。Python内置的None值在对象数组中也可以作为NA。滤除缺失数据过滤掉缺失数据的办法有很多种。你可以通过pandas.isnull或布尔索引的手工方法,但dropna可能会更实用一些。对于一个Series,dropna返回一个仅含非空数据和索引值的Series:In [15]: from numpy import nan as NAIn [16]:原创 2020-08-11 22:17:11 · 246 阅读 · 0 评论 -
数据分析笔记_第六章_数据加载、存储与文件格式
数据加载、存储与文件格式1 读写文本格式的数据pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。可以使用read_table,并指定分隔符In [11]: pd.read_table('examples/ex1.csv', sep=',')Out[11]: a b c d message0 1 2 3 4 hello1 5 6 7 8 world2 9 10 11 12 foo读入该文件的办法有两个。你可以让pandas为其分配默认的列名,也可以自己定义列名原创 2020-08-11 10:38:19 · 193 阅读 · 0 评论 -
数据分析笔记_第五章_pandas入门
pandas入门1 pandas的数据结构介绍原创 2020-08-10 15:05:56 · 225 阅读 · 0 评论 -
数据分析笔记_第四章_NumyPy基础
第四章 NumPy基础:数组和矢量计算NumPy(Numerical Python的简称)是Python数值计算最重要的基础包。大多数提供科学计算的包都是用NumPy的数组作为构建基础。基于NumPy的算法要比纯Python快10到100倍(甚至更快),并且使用的内存更少。1 NumPy的ndarray:一种多维数组对象先引入NumPy,然后生成一个包含随机数据的小数组:In [12]: import numpy as np #导入numpy库# Generate some random dat原创 2020-08-06 18:12:00 · 229 阅读 · 0 评论 -
利用Python进行数据分析笔记第三章
第三章 Python的数据结构、函数和文件1. 数据结构和序列元组元组是一个固定长度,不可改变的Python序列对象。创建元组的最简单方式,是用逗号分隔一列值:In [1]: tup = 4, 5, 6In [2]: tupOut[2]: (4, 5, 6)当用复杂的表达式定义元组,最好将值放到圆括号内,如下所示:In [3]: nested_tup = (4, 5, 6), (7, 8)In [4]: nested_tupOut[4]: ((4, 5, 6), (7, 8))可以原创 2020-08-06 12:02:13 · 312 阅读 · 0 评论 -
python进行数据分析读书笔记第二章
2.3Python语法基础**使用缩进来组织代码结构**for循环举例for x in array: if x < pivot: less.append(x) else: greater.append(x冒号标志着缩进代码块的开始,冒号之后的所有代码的缩进量必须相同,直到代码块结束分号可以用来给同在一行的语句切分:a = 5; b = 6; c = 7(Python不建议将多条语句放到一行,这会降低代码的可读性。)万物皆对象每个数字、字符串、数据结构、函原创 2020-08-05 15:03:19 · 372 阅读 · 0 评论