Python数据分析
文章平均质量分 74
kkbb8811
人问寒山道,寒山路不通。
展开
-
利用Python数据分析:Numpy基础(四)
import numpy as np arr = np.arange(15).reshape((3,5)) arr arr.T # 转置返回的是源数据的视图,不仅仅有transpose方法还有一个特殊的T属性,行变成列,列变成行 # np使用 dot来计算矩阵的内积 arr = np.random.randn(6,3) np.dot(arr.T,arr) # 对于高维的数组transpose方法原创 2017-02-05 17:16:32 · 388 阅读 · 0 评论 -
利用Python数据分析:Numpy基础(二)
import numpy as np arr = np.array([[1., 2., 3.], [4., 5., 6.]]) arr.shape arr arr * arr arr - arr # 大小相等的数组的任何运算都会被运用到元素级别 1 / arr arr ** 0.5 # 基本的索引 和切片 arr = np.arange(10) arr arr[5] arr[5:8] arr[原创 2017-02-02 15:42:17 · 438 阅读 · 0 评论 -
利用Python数据分析:Numpy基础(三)
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe']) data = np.random.randn(7, 4) # 七行四列的数组 names data names == 'Bob' data[names == 'Bob'] # 在这里names的长度为7 这个二维数组的长度也为7 于是可以用这个布尔型的数组作原创 2017-02-02 15:43:32 · 548 阅读 · 0 评论 -
利用Python数据分析:数据的规整化(一)
import pandas as pd from pandas import Series,DataFrame import numpy as np df1 = DataFrame({'key':['b','b','a','c','a','a','b'], 'data1':range(7)}) df2 = DataFrame({'key':['a','b','d'原创 2017-03-03 19:47:44 · 440 阅读 · 0 评论 -
利用Python数据分析:数据规整化(二)
left1 = DataFrame({'key':['a','b','a','a','b','c'], 'value':range(6)}) right1 = DataFrame({'group_val':[3.5,7]},index=['a','b']) pd.merge(left1,right1,left_on='key',right_index=True原创 2017-03-03 19:48:30 · 359 阅读 · 0 评论 -
利用Python数据分析:数据规整化(三)
a = Series([np.nan,2.5,np.nan,3.5,4.5,np.nan], index=['f','e','d','c','b','a']) b = Series(np.arange(len(a),dtype=np.float64), index=['f','e','d','c','b','a']) b[-1] = np.nan a b原创 2017-03-03 19:49:31 · 313 阅读 · 0 评论 -
利用Python数据分析:pandas入门(五)
from pandas import Series,DataFrame import pandas as pd import numpy as np from numpy import nan as NA df = DataFrame(np.random.randn(7,3)) df.ix[:4,1] = NA df.ix[:2,2] = NA df df.fillna(0) # 将缺失值填充为0原创 2017-02-26 19:07:13 · 534 阅读 · 0 评论 -
利用Python数据分析:数据规整化(四)
# 移除重复项 data = DataFrame({'k1':['one'] * 3 +['two'] * 4, 'k2':[1,1,2,3,3,4,4]}) data data.duplicated() # 返回一个布尔类型的Series来表示各行是否为重复行 (duplicated adj. 复制出的,复写书的) data.drop_duplicates(原创 2017-03-05 21:02:09 · 683 阅读 · 0 评论 -
利用Python数据分析:数据规整化(五)
import pandas as pd from pandas import Series,DataFrame import numpy as np import re # 计算指标/哑变量(dummy) df = DataFrame({'key':['b','b','a','c','a','b'], 'data1':range(6)}) pd.get_dummi原创 2017-03-06 13:38:44 · 838 阅读 · 0 评论 -
利用Python数据分析:Numpy基础(一)
data1 = [6,7.5,8,0,1] arr1 = np.array(data1) arr1 data2 = [[1,2,3,4], [5,6,7,8]] arr2 = np.array(data2) arr2 arr2.ndim#查看这个数组有几维 arr2.shape#数组的形状 arr1.dtype arr2.dtype #np.array会尝试为新建的数组腿短出一个合适的数据类型 n原创 2017-02-02 15:41:26 · 605 阅读 · 0 评论 -
利用Python数据分析:pandas入门(二)
import pandas as pd import numpy as np from pandas import Series,DataFrame data = {'state':['Ohio','Ohio','Ohio','Nevada','Nevada'], 'year':[2000,2001,2002,2001,2002], 'pop':[1.5,1.7,3原创 2017-02-12 22:02:35 · 387 阅读 · 0 评论 -
利用Python数据分析:Numpy基础(五)
import numpy as np points = np.arange(-5, 5, 0.01) # 产生1000个建个相等的点 xs, ys = np.meshgrid(points, points) # meshgrid接受两个一维的数组,并且产生两个二维矩阵 ys import matplotlib.pyplot as plt z = np.sqrt(xs**2+ys**2) # 而原创 2017-02-07 13:02:32 · 373 阅读 · 0 评论 -
利用Python数据分析:Numpy基础(六)
import numpy as np arr = np.random.randn(8) arr arr.sort() arr np.sort(arr) #np的顶级方法返回的是副本 arr = np.random.randn(5, 3) arr arr.sort(1) #多维数组按照指定的轴进行排序 arr#这里属于就地排序直接在数组上进行操作 #分位数计算:先进行排序而后取对应位置的值 lar原创 2017-02-08 12:28:42 · 463 阅读 · 0 评论 -
利用Python数据分析:Numpy基础(七)
import numpy as np samples = np.random.normal(size=(4,4)) # 标准正态分布一个4*4的样本数组 samples #随机漫步 #纯Python的内置模块进行1000步的随机漫步 import random position = 0 walk = [position] steps = 1000 for i in xrange(steps):原创 2017-02-09 09:00:23 · 685 阅读 · 0 评论 -
利用Python数据分析:pandas入门(六)
import pandas as pd import numpy as np from pandas import DataFrame,Series # 使用 Dataframe的列作为索引 frame = DataFrame({'a':range(7),'b':range(7,0,-1), 'c':['one','one','one','two','two'原创 2017-02-28 15:51:22 · 531 阅读 · 0 评论 -
利用Python数据分析:数据加载、存储与文件格式(一)
import pandas as pd from pandas import DataFrame,Series import sys import numpy as np df = pd.read_csv('E:\Python for Data Analysis\pydata-book-master\ch06\ex1.csv') df pd.read_table('E:\Python for Da原创 2017-02-28 19:43:24 · 719 阅读 · 1 评论 -
利用Python数据分析:pandas入门(三)
obj = Series(range(3),index=['a','b','c']) index = obj.index index index[1:] index[1] = 'd' # index对象是不能被修改的 Index does not support mutable operations index = pd.Index(np.arange(3)) obj2 = Series([1原创 2017-02-20 13:19:17 · 1487 阅读 · 0 评论 -
利用Python数据分析:pandas入门(四)
s1 = Series([7.3,-2.5,3.4,1.5],index=['a','c','d','e']) s2 = Series([-2.1,3.6,-1.5,4,3.1],index=['a','c','e','f','g']) s1 s2 s1+s2 # 索引相同的会相加自动对齐,不重叠的索引引入为NA值 df1 = DataFrame(np.arange(9.).reshape((3,原创 2017-02-20 13:21:43 · 437 阅读 · 0 评论 -
利用Python数据分析:pandas入门(一)
from pandas import Series,DataFrame import pandas as pd import numpy as np # Series:是由数据和数据标签组成的也就是数据+索引 是pandas的基本数据结构 obj = Series([4,7,-5,3]) obj # 因为没有给数组指定索引系统会自动创建一个从0~N-1长度的整数型的索引 obj.values原创 2017-02-12 22:01:40 · 392 阅读 · 0 评论 -
抓取虎扑王者荣耀板块最近十页帖子,2.5W回帖数据 ,来看看JR们都有哪些有趣的信息
数据说明:王者荣耀区最近十页的发帖,每个帖子内的第一页用户的个人信息 主题帖:王者荣耀区十页大概是有800个帖子。我抓取了这些帖子的主题,并且对关键词进行了抽取。根据jieba分词包(一个软件包)对这800个主题进行分析后,去除掉一些常用的无实意的词后。得出19个关键字为:王者,英雄,战队,荣耀,单排,KPL,赛季,打野,射手,皮肤,胜率,上分,攻略,春季,裴擒虎,出装,刘邦,大家,主播,大家最原创 2018-03-03 12:22:03 · 788 阅读 · 0 评论