python进行数据分析
文章平均质量分 68
python进行数据分析
海人001
爱码仕
展开
-
Random Walk 随机漫步理论 Random Walk Theory 随即漫步应用
目录Random walk点阵随机游走一维随机游走马尔可夫链更高的纬度与维纳过程的关系高斯随机游走异常扩散不同站点的数量应用变种在图表上自我互动随机游走远程相关步行偏向随意走在图上最大熵随机游走相关的随机游走也可以看看参考参考书目外部链接Random walk文章来源:https://en.wikipedi...翻译 2018-10-07 18:08:22 · 43485 阅读 · 2 评论 -
典型相关分析及R应用
目录什么是典型相关分析典型相关分析基本架构简单相关分析多变量相关分析典型相关分析典型相关分析的基本原理R实现20名中年人的生理指标和训练指标广州省能源消费量与经济增长之间的典型相关分析什么是典型相关分析用于探讨一组解释变量-亦即预测变量与一组反应变量间的关系即是典型相关分析-canonical correlation analysis,比如在体育训练中,...原创 2018-11-04 23:35:49 · 17036 阅读 · 5 评论 -
对应分析及R使用
目录什么是对应分析对应分析的计算步骤R语言实现对应分析应注意的几个问题什么是对应分析对应分析是在因子分析基础上发展起来的,因子分析分为R型和Q型因子分析,R型是对变量(指标)做因子分析,Q型是对样品做因子分析,研究样品之间的相互关系,对应分析是把R和Q统一起来,通过R型因子分析直接得到Q型因子分析的结果,同时把变量(指标)和样品反映到相同的坐标轴(因子轴)的一张图形上,以此...原创 2018-11-04 19:51:46 · 21943 阅读 · 5 评论 -
因子分析及R使用
目录什么是因子分析因子分析与主成分分析区别因子的特点R语言实现极大似然法主成分法因子分析因子旋转法因子得分计算因子排名与做图 因子信息重叠图例2什么是因子分析因子分析-factor analysis,就是寻找这些公共因子的模型分析方法,它是在主成分的基础上构筑若干意义较为明确的公因子,以他们为框架分解原变量,以此考察原变量间的联系与区别。因子分析...原创 2018-11-03 10:10:41 · 26028 阅读 · 3 评论 -
主成分分析及R使用
目录什么是主成分分析主成分推导主成分的分析过程R语言计算主成分分析注意事项什么是主成分分析principal-compon-analysis PCA,是将多指标化为少数几个综合指标的一种统计分析方法,由Pearson提出,由Hotelling发展,主成分分析是通过降维技术把多个变量化为少数几个主成分的方法,这些主成分保留原始变量的绝大部分信息,它们通常表示为原始变量的...原创 2018-11-01 18:34:46 · 16184 阅读 · 4 评论 -
Kmeans聚类法-K均值
目录什么是Kmeans聚类法-K均值与系统聚类区别K均值原理与计算R实现 1000个数据10000个数据关于聚类分析的总结聚类分析的一些特点什么是Kmeans聚类法-K均值系统聚类法需要计算不同样品或变量的距离,当样本量很大时,会占据非常大的计算机内存空间Kmeans是一种快速聚类法,该方法简单易懂,对计算机要求不高,Kmeans是麦奎因提出的,基本...原创 2018-10-31 22:26:10 · 13256 阅读 · 0 评论 -
聚类分析及R编程实现
目录什么是聚类分析聚类分析法的类型聚类统计量系统聚类法R语言实现最短距离法最长距离法 中间距离法 类平均法 重心法 ward法什么是聚类分析聚类分析法-cluster analysis是以研究"物以类聚"的一种现代统计分析方法,利用数学方法进行分类,排除主观性和任意性,揭示客观事物内在差别和联系,特别是对多指标,多分类问题。聚类分析的目的...原创 2018-10-31 17:34:17 · 13261 阅读 · 1 评论 -
多元统计分析及R语言建模(第四版)-----数据,包,资源
链接:http://rstat.leanote.com/cate/%E5%A4%9A%E5%85%83%E7%BB%9F%E8%AE%A1%E5%88%86%E6%9E%90*************差一点就放弃了,但是作者在邮件中回复了我,上面链接包含全部数据,自定义包等资料。谢谢作者!!!!...原创 2018-10-30 10:02:17 · 26310 阅读 · 6 评论 -
判别分析及R实现
目录简介两总体距离判别R实现 马氏距离判别 线性判别分析 多总体距离判别Bayes判别准则什么是先验概率先验概率取相等先验概率取不相等判别分析小结简介根据已知分类数据,分别计算各类重心,即是各组的均值,距离判别准则是,对任给的一次观测,若他与第i类的重心最近,就认为他来自第i类两总体距离判别设有两个总体 G1和G2,从第一个总体中抽取n1...原创 2018-10-30 09:48:01 · 15267 阅读 · 2 评论 -
Fisher线性判别及R语言实现
目录判别分析 线性判别分析求Fisher线性判别函数计算判别界值数据如下R代码代码解释及结果分析判别分析discriminat analysis,是多变量统计中用于判别样品所属类别的一种统计分析方法。它所解决的问题是在一些已知研究对象已经用某种方法分成若干类的情况下,确定新的样品属于已知类别中的哪一类。判别分析的主要方法如下: 线性判别分析R.A...原创 2018-10-29 19:13:09 · 25749 阅读 · 1 评论 -
多元回归分析python实战-----对我国财政收入的多因素进行分析
目录前言数据python相关分析分析结果python回归分析模型建立模型检验确定公式分析结果前言财政收入的规模大小对一个国家来说具有十分重要的意义,本文章分别从财政收入的组成因素和财政收入的影响因素两个方面入手,对祖国1979-1999年度财政收入情况进行多因素分析。在财政收入影响因素分析上,除了通过理论选出因素并利用统计软件建立模型分析,还把影响财政收...原创 2018-10-29 13:18:13 · 19858 阅读 · 10 评论 -
多元相关分析与多元回归分析
目录变量间的关系分析什么是相关分析什么是回归分析分析步骤回归分析与相关分析的主要区别一元线性相关分析一元线性回归分析建模方差分析检验 t检验多元回归分析模型建立线性回归模型基本假设多元回归分析用途多元线性相关分析矩阵相关分析复相关分析曲线回归模型多项式曲线二次函数对数函数指数函数幂函数双曲线函数变量间的...原创 2018-10-27 17:13:02 · 47606 阅读 · 6 评论 -
爱丽丝梦游仙境---python云图
目录WordCloud功能文章和底片来源无底片云图 有底片云图 中文云图WordCloud功能(1) 文本预处理(2) 词频统计(3) 将高频词以图片形式进行彩色渲染文章和底片来源https://github.com/amueller/word_cloud/tree/master/examples无底片云图from os import path...原创 2018-11-09 18:04:22 · 11869 阅读 · 0 评论 -
NumPy高级应用与python高级数组操作
目录ndarray对象的内部机理NumPy数据类型体系高级数组操作--数组重塑数组的合并和拆分堆叠辅助类:r_和c_元素的重复操作:tile和repeat花式索引的等价函数:take和putndarray对象的内部机理Numpy的ndarray提高了一种将同质数据块(可以是连续的跨越的)解释为多维数组的对象的方式。正如你之前所看到的那样,数据类型决定了数据的解释...原创 2018-10-25 10:34:38 · 11103 阅读 · 0 评论 -
python时间序列-----后半篇---绘图、窗口函数、性能内存
目录时间序列绘图移动窗口函数指数加权函数二元移动窗口函数用户自定义的移动窗口函数性能和内存使用方面的注意事项时间序列绘图>>> import pandas as pdBackend TkAgg is interactive backend. Turning interactive mode on.>>> import num...原创 2018-10-23 15:39:01 · 11436 阅读 · 0 评论 -
python时间序列-----中篇---python进行数据分析 period 、timestamp、 periodindex、 date_range、 resample、 OHLC、
目录时期及其算数运算时期的频率转换按季度计算的时期频率将Timestamp转换为Period(及其反向过程)通过数组创建PeriodIndex重采样及频率转换降采样OHLC重采样通过groupby进行重采样升采样和插值通过时期进行重采样时期及其算数运算时期-period 表示的是时间区间,比如数日,数月,数季,数年等。>>>...原创 2018-10-22 16:30:08 · 15044 阅读 · 0 评论 -
python时间序列-----前半篇---python进行数据分析
目录简介日期和时间数据类型及工具字符串和datetime的互相转换时间序列基础索引、选取、子集构造带有重复索引的时间序列日期的范围、频率及移动生成日期范围频率和日期偏移量WOM日期移动(超前和滞后)数据通过偏移量对日期进行位移时区处理本地化和转换操作时区意识型Timestamp对象不同时区之间的运算简介时间序列是一种重要的格式...原创 2018-10-21 16:06:24 · 10676 阅读 · 0 评论 -
python数据聚合-----python进行数据分析
数据聚合quantile用于计算样本的分位数>>> df = DataFrame({'key1':['a','a','b','b','a'],'key2':['one','two','one','two','one'],'data1':np.random.randn(5),'data2':np.random.randn(5)})>>> >&g...原创 2018-10-19 18:44:46 · 10606 阅读 · 0 评论 -
Basemap实战---图形化显示海地地震危机数据
数据来源https://github.com/wesm/pydata-book>>> import pandas as pd>>> from pandas import DataFrame,Series>>> import numpy as np>>> data = pd.read_csv('D:\python...翻译 2018-10-17 23:48:47 · 10994 阅读 · 0 评论 -
matplotlib Subplot pandas绘图-----python绘图、可视化
目录matplotlib API入门-Figure和Subplot调整subplot周围间距颜色、标记和线型刻度标签和图例---设置标题、轴标签、及刻度高度添加图例在Subplot上绘图将图标到存到文件pandas中的绘图函数线形图柱状图散布图绘图是数据分析工作的最重要任务之一,是探索的一部分。matplotlib API入门-Figure和Su...原创 2018-10-16 21:48:38 · 14011 阅读 · 0 评论 -
利用python进行数据分析----- 第一天,准备工作。DataFrame,Series,Matplotlib
目录 工具创建变量删除变量获取数据下载地址:引入文件: 转换为json:解析数据 单个对象输出获取所有时区引入自定义函数 使用函数:获取数量前十的时区,倒序:使用pandas对时区进行计数 获取数量前十的时区:替代填补缺失值:绘制水平条形图解析Agent字符串构建间接索引进行统计生成条形堆积图 比例分布有问...原创 2018-10-06 10:16:16 · 10758 阅读 · 0 评论 -
随机漫步范例-----python
简单随机漫步通过随机漫步范例说明如何运用数组运算,下面是一个简单的例子,从位置0开始,步长-方向为1且出现概率相等。>>> import random>>> position = 0>>> walk = [position]>>> steps = 1000>>> for i in x原创 2018-10-08 22:26:10 · 10846 阅读 · 0 评论 -
DataFrame入门-----python进行数据分析
DataFrame是一个表格型的数据结构,他含有一组有序的列,每列可以是不同的值类型。DataFrame既有行索引也有列索引。DataFrame中的数据块以一个或多个二维数据块存放的。>>> data={'state':['a','b','c'],'year':[2000,2001,2002],'pop':[1.5,1.6,1.7]}>>> Da...原创 2018-10-09 17:46:35 · 10536 阅读 · 0 评论 -
Pandas库的基本功能---python进行数据分析
目录 重建索引丢弃指定轴上的项索引,选取和过滤在算数方法中填充值DataFrame与Series之间的运算函数应用和映射 排序和排名带有重复值的轴索引本篇文章内容来自《利用python进行数据分析》一书,仅为方便平时使用,如有错误请反馈重建索引reindex用于创建一个适应新索引的新对象。如果某个索引值当前不存在就进入一个缺失值。>>...原创 2018-10-11 13:23:27 · 11069 阅读 · 0 评论 -
python 相关系数、协方差、唯一值、值计数、成员资格-----python进行数据分析
目录汇总和计算描述统计相关系数与协方差唯一值,值计数及成员资格汇总和计算描述统计Na值会被自动排除,通过skipna选项可以禁用该功能>>> df = DataFrame([[1.4,np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],index=['a','b','c','d'],columns=['one'...原创 2018-10-12 09:47:55 · 11887 阅读 · 0 评论 -
python处理缺失数据、过滤,填补-----python进行数据分析
目录处理缺失数据滤除缺失数据填补缺失数据处理缺失数据pandas的设计目标之一就是让缺失数据的处理任务更轻松,pandas使用浮点值NaN表示浮点数组和非浮点数组中的缺失数据,是一个便于被检测的标记python内置的None也会被当作NA处理from pandas import Series>>> string_data = Series(['aa...原创 2018-10-12 13:48:14 · 12146 阅读 · 0 评论 -
python层次化索引-----python进行数据分析、pandas
目录层次化索引根据级别汇总统计使用DataFrame的列层次化索引层次化索引是pandas的一项重要功能,它使你在一个轴上拥有多个索引级别,可以是你以低维度的形式处理高维度的数据。levels是索引集合和它的空间结构labels是索引在levels中索引的集合> from pandas import DataFrame,SeriesBackend TkAg...原创 2018-10-13 11:46:49 · 11440 阅读 · 0 评论 -
python数据加载存储 python文件格式-----python进行数据分析
目录读写文本格式的数据逐块读取文本文件将数据写出到文本手工处理分割符格式网络数据提取读写文本格式的数据>>> import pandas as pdBackend TkAgg is interactive backend. Turning interactive mode on.>>> pd.read_csv('D:\pyt...原创 2018-10-13 16:02:19 · 10419 阅读 · 0 评论 -
python包 pandas基础用法转载
一、生成数据表1、首先导入pandas库,一般都会用到numpy库,所以我们先导入备用:import numpy as npimport pandas as pd2、导入CSV或者xlsx文件:df = pd.DataFrame(pd.read_csv('name.csv',header=1))df = pd.DataFrame(pd.read_excel('name.xls...原创 2018-09-10 20:50:55 · 10602 阅读 · 0 评论