数据分析
文章平均质量分 50
Shingle_
Done is better than perfect.
展开
-
Numpy基础
高性能计算和数据分析的基础包import numpy as npN维数组对象(ndarray): 同构数据多维容器。每个数组都有一个shape(表示维度大小的元组)、dtype(说明数据类型的对象)。创建ndarrayarrayasarrayarangeones、ones_likezeros、zeros_likeempty、empty_likeeye、id...原创 2017-04-16 23:41:24 · 591 阅读 · 0 评论 -
pandas数据分组和聚合操作
《Python for Data Analysis》GroupBy分组运算:split-apply-combine(拆分-应用-合并)DataFrame可以在其行(axis=0)或列(axis=1)上进行分组。然后,将一个函数应用到各个分组并产生新值。最后,所有这些函数的执行结果会被合并到最终的结果对象中去。GroupBy的size方法可以返回一个含有分组大小的Seri...原创 2017-05-24 15:53:53 · 6411 阅读 · 0 评论 -
绘图和可视化(seaborn)
《Python for Data Analysis》柱状图import pandas as pd import numpy as npimport seaborn as snsimport matplotlib.pyplot as plt %matplotlib inlinetips = pd.read_csv('examples/tips.csv')party_counts = pd.原创 2017-10-19 00:32:49 · 1068 阅读 · 0 评论 -
绘图和可视化(pandas)
《Python for Data Analysis》pandas中的绘图函数pandas有许多能够利用DataFrame对象数据组织特点来创建标准图表的高级绘图方法。线形图import pandas as pd import numpy as np%matplotlib inlines = pd.Series(np.random.randn(10).cumsum(), index=np.ar原创 2017-10-19 00:09:31 · 3397 阅读 · 0 评论 -
绘图和可视化(matplotlib)
绘图和可视化是数据分析中的一项重要工作。通过可视化,能够更好的观察数据的模式,帮助我们找出数据的异常值、必要的数据转换、得出有关模型的想法。matplotlib用法:在ipython中,使用ipython --pylab模式启动;或jupyter notebook中,%matplotlib inline (better!)In [1]: import numpy as np ...: d原创 2017-10-15 01:25:43 · 976 阅读 · 0 评论 -
pandas时间序列频率处理
《Python for Data Analysis》生成日期范围pd.data_range()In [15]: rng = pd.date_range('2000-01-01', '2000-06-30', freq='BM')In [16]: rngOut[16]:DatetimeIndex(['2000-01-31', '2000-02-29', '2000...原创 2017-10-15 00:34:57 · 5107 阅读 · 0 评论 -
pandas时间序列
《Python for Data Analysis》日期和时间数据类型及工具Python datatime模块In [2]: from datetime import datetimeIn [3]: now = datetime.now()In [4]: nowOut[4]: datetime.datetime(2017, 5, 25, 13, 55, 3...原创 2017-10-15 00:32:38 · 854 阅读 · 0 评论 -
机器学习探索性数据分析的数据类型
数据类型是统计学中的重要概念,我们需要对它有正确的理解方能利用正确的数据类型来获得结论。这篇文章将介绍几种用于机器学习探索性数据分析的数据类型,以便正确的把握和利用数据。对数据结构的良好理解对于机器学习中探索性分析十分重要,对于不同的数据类型我们需要不同的统计学度量手段来进行分析测试。同时也需要根据数据的类型选择合适的可视化方式来帮助我们更好的理解数据。最后数据类型也为变量的分类提供了一个有效的途...转载 2018-04-22 00:53:23 · 1913 阅读 · 0 评论 -
机器学习探索性数据分析的数据类型(补充)
探索性数据分析(Exploratory Data Analysis, EDA )EDA是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。特别是当我们对这些数据中的信息没有足够的经验,不知道该用何种传统统计方法进行分析时,探索性数据分析就会非常有效。离散属性:若属性值间存在...原创 2018-05-04 23:48:19 · 953 阅读 · 0 评论 -
Pyhton、Numpy、Pandas排序小结
Python Help#用built-in函数sorted进行排序,返回副本,原始输入不变sorted(...) sorted(iterable, cmp=None, key=None, reverse=False) --> new sorted list#用List的成员函数sort进行排序,在本地进行排序,不返回副本sort(...) L.sort(cmp...原创 2017-10-08 20:03:24 · 873 阅读 · 0 评论 -
pandas处理缺失数据
《Python for Data Analysis》NA处理方法 方法 说明 dropna 根据各标签的值中是否存在缺失数据对轴标签进行过滤,可通过阈值调节对缺失值得容忍度 fillna 用指定值或插值方法(如ffill和bfill)填充缺失数据 isnull 返回一个含有布尔值的对象,这些布尔值表示哪些值是缺失值NA,该对象的...原创 2017-05-09 16:30:17 · 13676 阅读 · 0 评论 -
pandas排序与统计
《Python for Data Analysis》排序sort_index()对行或列索引进行排序In [1]: import pandas as pdIn [2]: from pandas import DataFrame, SeriesIn [3]: obj = Series(range(4), index=['d','a','b','c'])...原创 2017-05-09 16:27:02 · 16579 阅读 · 0 评论 -
Numpy高级应用
数组重塑reshape无需复制任何数据,数组就能从一个形状转换成另一个形状。 ——向数组的实例方法reshape传入一个表示新形状的元组。ravel 散开 flatten 扁平化注意: ravel不会产生源数据的副本,相反,flatten总是返回数据的副本。数组的合并和拆分np.concatenate() np.vstack() np.hstack()...原创 2017-04-16 23:42:45 · 2199 阅读 · 0 评论 -
pandas基础运算
《Python for Data Analysis》算术运算和数据对齐pandas可以对不同索引的对象进行算术运算。例如:当对象相加时,如果存在不同的索引对,其结果的索引就是该索引对的并集。自动的数据对齐操作在不重叠的索引处引入了NA值。并且会在算术运算中传播。In [1]: import numpy as npIn [2]: import pandas as ...原创 2017-05-09 16:19:51 · 2253 阅读 · 0 评论 -
pandas数据加载与合并
《Python for Data Analysis》数据加载read_csv从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为逗号read_table从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为制表符(“\t”)pd.read_csv('ex1.csv')等价于pd.read_table('ex1.csv', sep=',')...原创 2017-05-22 20:21:10 · 628 阅读 · 0 评论 -
pandas数据重塑
《Python for Data Analysis》数据重塑重塑层次化索引stack: 将数据的列“旋转”为行unstack : 将数据的行“旋转”为列旋转pivot:前两个参数值分别用作行和列索引的列名,最后一个参数则是用于填充DataFrame的数据列的列名。如果忽略最后一个参数,得到的DataFrame就会带有层次化的列。相当于用set_i...原创 2017-05-22 20:22:20 · 1333 阅读 · 0 评论 -
pandas字符串函数
《Python Data Analysis》pandas中矢量化的字符串函数问题: 通过Series的map函数,所有字符串和正则表达式方法都能被应用于各个值(传入lambda表达式或其他函数),但是如果存在NA就会报错。解决: Series有一些能够跳过NA值得字符串操作方法,通过Series的str属性可以访问这些方法。矢量化的字符串方法: 方法 说明 cat 实现元素级的字符串原创 2017-05-22 21:05:58 · 8533 阅读 · 0 评论 -
pandas入门
《Python for Data Analysis》from pandas import Series, DataFrameimport pandas as pdSeries由一组数据以及与之相关的数据标签,Series的字符串表现形式为:索引在左边,值在右边。如果没有指定索引,会自动创建一个0到N-1的整数型索引。属性: .values 和 .index...原创 2017-05-09 15:34:03 · 476 阅读 · 0 评论 -
pandas索引对象
《Python for Data Analysis》索引对象Index对象是不可修改的(immutable),这样才能使Index对象在多个数据结构之间安全共享。In [1]: import pandas as pdIn [2]: from pandas import Series, DataFrameIn [3]: import numpy as npIn...原创 2017-05-09 16:07:46 · 1989 阅读 · 0 评论 -
pandas函数应用
《Python for Data Analysis》函数应用和映射将函数应用到各列或行所形成的一维数组上 apply方法In [18]: df1Out[18]: a b c d0 0 1 2 31 4 5 6 72 8 9 10 11In [19]: f = lambda x : x.max() - x.m...原创 2017-05-09 16:21:54 · 1189 阅读 · 0 评论 -
Spark学习笔记(一)——Spark编程
Apache Spark是一个分布式计算框架,旨在简化运行于计算机集群上的并行程序的编写。Spark的前辈:MPI、MapReduce特性:迭代式计算、交互式探索、内存缓存计算Spark软件栈Spark Core:任务调度、内存管理、错误恢复、与存储系统交互,弹性分布式数据集(resilient distributed dataset, RDD)Spark SQL:可与Hi...原创 2018-08-24 20:34:14 · 647 阅读 · 0 评论