自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

转载 【转载】drf的serializers解析

引言  serializers是什么?官网是这样的”Serializers allow complex data such as querysets and model instances to be converted to native Python datatypes that can then be easily rendered into JSON, XML or other con...

2018-09-20 15:47:25 1097 1

原创 nltk的介绍和基本的文本预处理

安装nltkpip install nltk打开下载器nltk.download()其中包括各种语料库,分词模型等我们下载brown语料包和punkt模型下载完后可以导入语料库英文分词然后对句子进行分词,使用word_tokennize方法的前提是必须要安装分词模型,如punkt分词后的结果是列表from nltk.corpus import brown中文分词import jieba一般中文都是...

2018-06-12 17:26:51 2127

原创 matplotlib--绘图

import matplotlib.pyplot as pltimport numpy as npfigure对象,类似于绘画的画布# 首先创建figure对象(类似画布)fig = plt.figure()print(fig) # 默认大小是640*480像素# 可以对其进行自定义设置,1000*800的像素,每个点的分辨率像素是120fig = plt.figure(figsiz...

2018-06-12 15:30:07 381

原创 数据分析笔记--pandas的数据替换

import pandas as pdimport numpy as npreplace方法:根据值的内容进行替换先分别创建一个Series对象和DataFrame对象Series的数据进行替换,将9替换成19也可以批量替换,多个数据一个数据或者多个数据替换为多个数据DataFrame的数据替换--单个替换,批量替换...

2018-06-06 14:30:03 11759

原创 数据分析笔记--pandas的数据转换

import pandas as pdimport numpy as np1.duplicated():返回bool类型的Series对象,对比每一行的所有列数据,判断是否有重复行,False代表未重复,True代表重复行2.drop_duplicates():删除重复行 其中可以传指定列的列名,表示只删除指定列的重复行...

2018-06-06 14:14:37 248

原创 数据分析笔记--numpy和pandas的数据合并

import pandas as pdimport numpy as np1.numpy的数据合并(concatenate)

2018-06-06 11:05:28 624

原创 数据分析笔记--pandas的多表连接

import pandas as pdimport numpy as np定义两个DataFrame数据集使用merge进行多表连接1.默认连接方式(会使用表之间相同的列名作为外键进行连接,如果有两边对不上的字段则会自动丢弃)2.通过on指定外键on指定外键,如果有重名的列名就会自动更改名称,有不对应的数据也会丢弃pd.merge默认使用的是内连接内连接:相当于取两个数据集的交集,即二者都有的部分...

2018-06-05 11:24:12 12797

原创 数据分析笔记--pandas分组和聚合后的多表连接

import pandas as pdimport numpy as np

2018-06-04 22:09:11 1657

原创 数据分析笔记--pandas的分组和聚合

import pandas as pdimport numpy as np新建一个带分组特征的DataFrame对象分组操作  groupby注意:只对数据集进行分组操作,将不会显示结果,只会生成一个分组的对象,只有分组后进行聚合运算才有实际结果分组后的聚合运算 对整个数据集进行聚合运算对data2进行分组后的聚合运算自定义key进行分组自定义一个列表,个数和每列的个数相同...

2018-06-04 16:45:41 2748

原创 数据分析笔记--pandas的统计描述

import pandas as pdimport numpy as np常用的统计方法有:sum、mean、max、min、count、describe等新建DataFrame对象sum():默认按列统计总和,并且其中如果有NaN值的话,默认将不被计入统计如果想让NaN也计入总和,则需要添加skipna=False的参数,表示不跳过NaN值(默认它的值是True,代表跳过NaN值)max(),m...

2018-05-30 18:14:18 459

原创 数据分析笔记--pandas的层级索引和数据重构

import pandas as pdimport numpy as np新建一个包含层级索引的Series对象此时Series对象的索引的类型是MultiIndex类型,而一般的索引类型是RangeIndex类型1.选层外层索引内层索引2.交换分层--swaplevel()参数:0,1,2...0--表示最外层 1--表示第二外层2--表示第三外层...下图是将最外层和第二外层进行交换3.分层排...

2018-05-29 17:41:29 586 1

原创 数据分析笔记--pandas处理缺失数据

import pandas as pdimport numpy as np新建一个DataFrame对象1.判断其中是否有NaN值方法:isnull()2.丢弃包含缺失值的行或者列方法:dropna(),其中可以传参数axis表示按行还是按列进行删除,默认是按行删除3.填充缺失值方法:fillna(),其中传的参数是需要填充到NaN位置的值...

2018-05-29 16:49:43 436

原创 数据分析笔记--pandas的排序处理

import pandas as pdimport numpy as np1.按照索引排序Series的索引排序利用sort_index()方法,默认是按照升序排序,ascending=True可以添加ascending=False的参数,表示降序排序DataFrame的索引排序也是通过sort_index()进行排序,默认按照列的方向进行排序--axis=0,并按照升序排序--ascending...

2018-05-29 16:07:50 1158

原创 数据分析笔记--pandas的函数运用

import numpy as npimport pandas as pd1.pandas可以直接使用numpy中的ufunc(universal functions),表示numpy的内置方法,可以处理每个元素比如下面的Series对象同样,DataFrame对象也可以直接使用numpy的ufunc来做统计运算默认是按列进行统计的,将每列的运算结果统计,并生成Series对象返回另外,也可以通过...

2018-05-29 10:50:44 375

原创 数据分析笔记--pandas的对齐运算

import pandas as pdimport numpy as npSeries的对齐运算.add()能对两个Series对象进行对齐运算,合并两个Series对象的数据,返回新的Series对象,但是未对齐的数据将会被填充为NaN处理对齐运算中的缺失值添加add()方法中的参数:fill_value=0, 可以将缺失的数据填充为0,然后再进行对齐运算(防止NaN值的出现)DataFrame...

2018-05-28 17:27:09 1563

原创 数据分析笔记--pandas的索引操作

import numpy as np import pandas as pd1.Series的索引操作可以使用自定义的索引值,添加index参数可以发现其实加了自定义索引之后既可以通过新索引来定位元素,也可以通过原来的下标定位2.根据索引进行切片可以发现,使用索引下标进行索引切片的时候结束位是不包含的,使用自定义...

2018-05-28 16:55:10 1091

原创 数据分析笔记--pandas的数据结构--Series和DataFrame

import pandas as pdSeries对象的创建可以通过列表来创建

2018-05-28 10:49:13 416

原创 数据分析笔记--numpy--ndarray的统计函数

import numpy as npmean():求数组元素的平均值max(),min():数组元素的最大值和最小值std():求标准差     var():求方差标准差:数组中的所有数字分别和平均数的差的平方的和的平均数开根号--即方差的算数平方根方差:数组中的所有数字分别和平均数的差的平方的和的平均数这两个主要是用来衡量数据集的离散程度和波动大小argmax():求最大值的下标    argm...

2018-05-23 15:29:50 5412 1

原创 数据分析笔记--numpy--ndarray的元素运算

import numpy as npceil():求向上最接近的整数

2018-05-23 10:51:11 1137

原创 数据分析笔记--numpy--ndarray的维度转换

import numpy as np通过transpose()对数组进行维度转换,即将行与列进行调换,三行四列转换为四行三列二维数组可以直接进行转换,无需传参如果是二维以上的维数组进行维度转换的话,不传参则默认将维度反序(比如(2,3,4)将会变成(4,3,2))如果要固定转换维度的就需要传参,但是传入transpose()的参数是维度元组的下标(比如(2,3,4)想转换为(3,2,4)需要传入的...

2018-05-22 17:04:13 12959

原创 数据分析笔记--numpy--ndarray的索引和切片

import numpy as npnp.arange(10)等同于np.array(range(10))数组也可以通过下标进行切片多维数组可以通过下标取出指定元素取出arrr2前两行的中间三个数,对前两行同时进行切片,生成一个小的二维数组(python中的列表是没有这样的操作的)取出所有行的除了每行最后一个数条件索引切片需要注意的是,和python不同,numpy中的条件与和或用的是&和...

2018-05-22 16:24:11 389

原创 数据分析笔记--numpy--ndarray的矩阵运算

import numpy as np通过运算符号可以对矩阵间直接做数学运算,对应下标进行运算单个元素可以和矩阵间进行广播运算(将元素和矩阵中的每一个数据进行运算)...

2018-05-22 14:50:23 156

原创 数据分析笔记--numpy--ndarray的序列创建

import numpy as np接收一个列表(或者是元组,数组,等其他的序列类型),创建ndarray二维数组接收两个列表创建一个全部为0,浮点数类型的二维数组arr3 = np.zeros((3,4))创建一个全部为1,浮点数类型的二维数组arr4 = np.ones((3,4))创建一个未定义初始值的二维数组,empty这个方法并不是返回空值,而是未初始化的垃圾值arr5 = np.emp...

2018-05-22 14:30:53 1561

原创 数据分析笔记--numpy--ndarray的数据类型(指定,转换)

arr1 = np.ones((3,4))生成全为一的数组,默认数据类型是float64在生成数组的同时就可以指定数据类型

2018-05-22 09:29:55 763

原创 数据分析笔记--numpy--ndarray的随机创建及图形生成

导入numpy包 -- import numpy as np生成一个2行2列个数为2的三维数组--arr = np.random.rand(2,2,2),数值范围默认是在0-1之间arr.ndim属性可以取出数组的维度个数arr.shape取出数组的具体维度信息arr.dtype取出数组中的数据类型np.random.randn(10000)生成一个个数为10000的一维数组,符合正态分布通过ma...

2018-05-21 17:09:49 1367

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除