python 数据分析
文章平均质量分 87
照片怎么加不上
这个作者很懒,什么都没留下…
展开
-
python数据分析四:DataFrame基本结构
# -*- coding: utf-8 -*-import pandas as pdfrom pandas import Series,DataFrameimport numpy as np'''DataFrame是表格型的数据结构,它含有一组有序的列,每列是不同值类型'''#创建一个dataframed的表格dict={'state':['a','a','a','b','...原创 2018-06-11 14:18:53 · 307 阅读 · 0 评论 -
python数据分析十:pandas的读取和写入文件
# -*- coding: utf-8 -*-import pandas as pdfrom pandas import Series,DataFrameimport numpy as np'''读写文本格式的数据read_cvsread_table'''data=DataFrame(np.arange(16).reshape(4,4),index=list('abcd')...原创 2018-06-15 11:08:14 · 6892 阅读 · 0 评论 -
python数据分析二:numpy的常规用法(file,随机漫步)
要知道的数学名词线性代数行列式行列式的计算矩阵的乘法矩阵的转置矩阵的逆矩阵*矩阵的逆=单位阵矩阵QR分解随机漫步# -*- coding: utf-8 -*-import numpy as np'''将数组以二进制方式存入磁盘'''arr=np.arange(10)print(arr)#[0 1 2 3 4 5 6 7 8 9]#npy结尾的文件np...原创 2018-06-08 15:08:16 · 685 阅读 · 0 评论 -
python数据分析三:pandas的Series模块
# -*- coding: utf-8 -*-import pandas as pdfrom pandas import Series,DataFrameimport numpy as np'''Series 是一个简单的一维数组对象,带索引'''obj=Series([1,2,3,4])print(obj)# 0 1# 1 2# 2 3# 3 ...原创 2018-06-08 16:42:00 · 415 阅读 · 0 评论 -
python数据分析十六:pandas的面元划分和哑变量(get_dummies()、哑变量)
数学名词离散化和面元划分 :就是分组,进行相应的计算对于数据进行离散化和面元划分的前提条件是:连续变化的数据例如下面是一组人的年龄数据,现在要按照年龄划分为不同年龄的4组(即把数据拆分为4个面元),分别为“18到25”、“25到35”、“35到60”及“60以上。为了实现分组,需要使用pandas的cut函数:pandas返回的是一个特殊的Categorical对象。你可以将其看作一组表...原创 2018-06-25 08:39:56 · 4877 阅读 · 0 评论 -
python数据分析十七:可视化入门(matplotlib)
# -*- coding: utf-8 -*-import matplotlib.pyplot as plt'''可视化和绘图'''fig=plt.figure()ax1=fig.add_subplot(2,2,1)#图像是2*2的,所选区域的第1位置ax2=fig.add_subplot(2,2,2)#图像是2*2的,所选区域的第2位置ax3=fig.add_subplot(2...原创 2018-06-25 10:38:28 · 266 阅读 · 0 评论 -
python数据分析十八:USDA食品数据库分析(总结,原始数据分享)
分享一下这本书的原始数据数据# -*- coding: utf-8 -*-import pandas as pdfrom pandas import Series,DataFrameimport numpy as np'''分析美国农业部食品数据库'''import jsondb=json.load(open('C:\\tools\\pydata-book-master\\...原创 2018-06-25 15:27:15 · 3211 阅读 · 1 评论 -
python数据分析十九:matplotlib的常规用法、参数设置
# -*- coding: utf-8 -*-import matplotlib.pyplot as pltimport numpy as np#布局figure 数据subplot#快捷方式fig,axes=plt.subplots(2,2,sharex=True,sharey=True)#创建了4个figure对象,x,y轴的值保持一致for i in range(2): ...原创 2018-06-25 16:08:38 · 484 阅读 · 0 评论 -
python数据分析二十:pandas中绘图函数(plot(),hist(),scatter()、折线图、柱状图、直方图、散布图)
知识点复习cumsum() 累加值,新生成的数+上一个生成的数[ 0 1 3 6 10 15 21 28]cumsum(0) 看几行几列式,按行叠加,行内的叠加值相同[[ 0 1 2 3] [ 4 6 8 10]]cumsum(1) 按行叠加,新生成的数+上一个生成的数[[ 0 1 3 6] [ 4 9 15 22]]散布图 是观察两个一维数据序列之间关...原创 2018-06-26 13:43:37 · 11021 阅读 · 0 评论 -
python数据分析二一:图形化显示海地地震危机数据
# -*- coding: utf-8 -*-import matplotlib.pyplot as pltimport pandas as pdimport numpy as npfrom datetime import datetime'''图形化显示海地地震危机数据'''#1.获取原始数据data=pd.read_csv('C:\\tools\\pydata-book-...原创 2018-06-26 16:28:55 · 1719 阅读 · 11 评论 -
python数据分析十五:pandas矩阵数据的删除重复数据和重命名(duplicated、rename)
# -*- coding: utf-8 -*-import pandas as pdfrom pandas import Series,DataFrameimport numpy as np'''移除重复数据'''data=DataFrame({'k1':['one']*4+['two']*3,'k2':[1,1,2,3,3,4,4]})print(data)# k1 ...原创 2018-06-22 15:51:54 · 1391 阅读 · 0 评论 -
python数据分析九:pandas层次化索引
# -*- coding: utf-8 -*-import pandas as pdfrom pandas import Series,DataFrameimport numpy as np'''数据分类'''data=Series(np.random.randn(10),index=[['a','a','a','b','b','b','c','c','d','d'],[1,2,...原创 2018-06-14 17:10:32 · 400 阅读 · 0 评论 -
python数据分析五:Series和DataFrame的索引的方法(ix()方法)
# -*- coding: utf-8 -*-import pandas as pdfrom pandas import Series,DataFrameimport numpy as np'''索引对象'''obj=Series(range(3),index=['a','b','c'])print(obj)# a 0# b 1# c 2# dtyp...原创 2018-06-11 14:20:17 · 3246 阅读 · 0 评论 -
python数据分析六:Series与DataFrame的计算
# -*- coding: utf-8 -*-import pandas as pdfrom pandas import Series,DataFrameimport numpy as np'''padans的最重要的一个功能是对不同的索引对象进行运算'''s1=Series([1,2,3,4],index=['a','b','c','d'])s2=Series([5,6,7...原创 2018-06-11 15:28:57 · 1652 阅读 · 0 评论 -
python数据分析七:DataFrame的函数(求和、协方差、相关系数等)
导数:导数简单点说,就是函数的斜率.比如说y=x这个函数,图像你应该很清楚吧,虽然y是随着x的正加而增大的,但是其变化率也就是斜率是一直不变的.那么你能猜出来y=x的导数是多少么?y=x的导数y'=1,同理y=2x时,则y'=2,这是最简单的.当函数是2次函数的时候,其斜率会忽大忽小,甚至忽正忽负,这时y'不再是一个固定的数,而是一个根据x值变化的数(说白了也是一个函数) 协方差:在概率论和统计学...原创 2018-06-12 11:11:26 · 33886 阅读 · 0 评论 -
python 数据分析一:numpy常规用法
本人最近在对《利用python进行数据分析》一书,将上面的知识点进行总结一下,以后每天都更新一下;每天进步一点点数学名词:数学和统计方法mean 算数平均数std 标准差var 方差自由度在统计学中,自由度(degree of freedom, df)指的是计算某一统计量时,取值不受限制的变量个数。通常df=n-k。其中n为样本数量,k为被限制的条件数或变量个数,或计算某一统计量时...原创 2018-06-05 18:32:42 · 995 阅读 · 0 评论 -
python数据分析十一:pandas数据整合,数据库风格(merge的内连接,左连接,右连接等)
# -*- coding: utf-8 -*-import pandas as pdfrom pandas import Series,DataFrameimport numpy as np'''数据规整化:合并''''''数据库风格的DataFrame合并.内连接,左连接,右连接'''df1=DataFrame({'key':['b','b','a','c','a',...原创 2018-06-21 09:14:04 · 6339 阅读 · 0 评论 -
python数据分析八:Na值得数据处理
# -*- coding: utf-8 -*-import pandas as pdfrom pandas import Series,DataFrameimport numpy as npstring_data=Series(['aa','bb','cc',np.nan])print(string_data)# 0 aa# 1 bb# 2 cc# ...原创 2018-06-13 19:32:40 · 6252 阅读 · 0 评论 -
python数据分析十二:pandas多个矩阵的索引合并(merge的索引合并方法详解)
# -*- coding: utf-8 -*-import pandas as pdfrom pandas import Series,DataFrameimport numpy as np'''索引上的合并'''left1=DataFrame({'key':['a','b','a','a','b','c'],'value':range(6)})print(left1)# ...原创 2018-06-21 15:46:48 · 7810 阅读 · 0 评论 -
python数据分析十三:pandas矩阵的轴向连接(concat详解)
# -*- coding: utf-8 -*-import pandas as pdfrom pandas import Series,DataFrameimport numpy as np'''轴向连接'''arr=np.arange(12).reshape(3,4)print(arr)print(np.concatenate([arr,arr],axis=1))# ...原创 2018-06-21 15:48:57 · 1351 阅读 · 0 评论 -
python数据分析十四:pandas矩阵的行列转换(stack、unstack)
# -*- coding: utf-8 -*-import pandas as pdfrom pandas import Series,DataFrameimport numpy as np'''合并重叠数据'''a=Series([np.nan,2.5,np.nan,3.5,4.5,np.nan],index=list('fedcba'))b=Series(np.arang...原创 2018-06-22 09:38:29 · 23655 阅读 · 0 评论 -
python数据分析二二:pandas的groupBy分组对象
# -*- coding: utf-8 -*-import matplotlib.pyplot as pltimport pandas as pdimport numpy as npfrom datetime import datetime'''分组groupby'''df=pd.DataFrame({'key1':['a','a','b','b','a'], ...原创 2018-06-27 13:40:10 · 1862 阅读 · 0 评论