自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 MYSQL中的几种约束方法

约束就是数据表中的限制条件,为保证表的完整和有效。比如我要建立一个班级成员的信息表:CREATE TABLE person (person_id SMALLINT UNSIGNED name VARCHAR(20), gender CHAR(1), birth_date DATE, CONSTRAINT pk_person PRIMARY KEY person_id...

2019-02-18 18:04:19 547

原创 Seaborn.countplot是什么

Seaborn是基于matplotlib的Python可视化库,可以视为matplotlib的补充。我在用BlackFriday数据集练手的时候,发现了countplot计数图,官网上的解释是:seaborn.countplot(x =无,y =无,hue =无,数据=无,顺序=无,hue_order =无,orient =无,color =无,palette = None,饱和度= 0.75...

2019-01-16 23:17:13 5089

原创 pandas的agg函数不支持字典格式了?

我在使用pandas进行数据分析时遇到了如下问题:result = data.groupby('通信品牌')['号码'].agg({'用户数':np.size})错误提示:FutureWarning: using a dict on a Series for aggregationis deprecated and will be removed in a future version...

2019-01-08 07:25:08 748

原创 对泰坦尼克号项目的简单分析

泰坦尼克号项目数据可在kaggle上免费下载。一、分析目的:探索泰坦尼克号乘客存活影响因素import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib notebookplt.rcParams['font.sans-serif'] = ['FangSong'] plt.rcParams[...

2019-01-08 06:45:16 1666

原创 数据分析之交叉分析

交叉分析通常用于两个或两个以上分组变量之间的关系,以交叉表形式进行变量间关系的对比分析。我们将两个具有一定联系的变量设置为行变量和列变量,把统计数据制作成二维交叉表格(数据透视表)。通常使用的函数是pivot_table()。pivot_table(values, index, columns, aggfunc, fill_value)参数说明如下:参数描述values...

2018-12-12 23:19:10 26467 2

原创 数据分析之字段抽取

字段抽取常用slice(start, stop)函数,比如我有下面的一串数据:想将前三位,中间四位和后面四位抽取出来。首先我要把他们都转化成字符串形式data['tel'] = data['tel'].astype('str')再用如下代码进行字段的抽取:data['1'] = data['tel'].str.slice(0, 3)data['2'] = data['tel'].st...

2018-12-10 23:52:14 1063

原创 数据分析之清除空格值

空格值的清除常用strip()函数。先导入有空格值的数据。data.at[1, 'name']可以看到字符串的前后都是有空格的。然后我们使用strip()函数。data['name'] = data['name'].str.strip()datadata.at[1, 'name']前后的空格值都被清除了。你还可以用lstrip(),rstrip()分别清除字符串左右的...

2018-12-08 17:04:56 396

原创 数据分析之重复值处理

最常用drop_duplicates()函数,它把行相同的多余的重复的数据去除,直接在对象中使用该函数即可,它会返回去除重复值后的对象。df = pd.DataFrame({'A': [1, 2, 1, 4, 5], 'B': [5, 6, 5, 8, 9], 'C': [1, 2, 1, 4, 5], ...

2018-12-08 16:37:41 2733

原创 数据清洗——处理缺失值

我们最初的数据会因为各种各样的原因——信息无法获取,被遗漏——而产生缺失值

2018-12-01 19:19:31 2210

原创 matplotlib画折线图

幸运的是,DataFrame和Series都有一个plot属性,默认情况下,plot()绘制的是折线图。因为现在在玩kaggle,所以我就以kaggle上的avocado-prices数据集为例,在jupyter notebook上绘制折线图。先导入数据:import numpy as npimport pandas as pdimport matplotlib.pyplot as plt...

2018-11-26 00:10:31 1406

原创 matplotlib画柱状图

import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib notebookplt.rcParams['font.sans-serif'] = ['FangSong'] plt.rcParams['axes.unicode_minus'] = False 上面最后的两行代码是为了能在j...

2018-11-23 08:07:23 1999

原创 groupby机制

groupby:分割,应用和组合。groupby经常只需一行代码,就可以计算每组的和,均值,计数,最小值以及其他累计值。它返回一个DataFrameGroupby对象,你可以将它看成是一个特殊的DataFrame对象,里面隐藏着若干组数据。groupby的基本操作方法:从创建DataFrame开始:df = pd.DataFrame({'key1': ['a', 'a', 'b', 'b'...

2018-11-19 12:00:14 1380

原创 什么是栈:Python语言描述

栈(stack)是一个项的有序集合,其中添加移除新项总发生在同一端。这一端通常称为“顶部”。与顶部对应的端称为“底部”。就像图片所描述的,栈s=(a1,a2,…an-1,an)。最后入栈的是an,最先出栈的也是an。所以栈符合LIFO原则。LIFOLIFO,即后进先出的排序原则。它基于在集合内的时间长度做排序。较新的项靠近顶部,较旧的项靠近底部。栈的底部很重要,因为在栈中靠近底部的项是存储...

2018-09-30 07:39:57 1472

翻译 大O符号

在我们通过执行时间来表征算法的效率时,函数的数量级表示了随着 n 的值增加而增加最快的那些部分。数量级通常称为大O符号,写为 O(f(n)) 。它表示对计算中的实际步数的近似。参数 n 通常称为‘问题的规模’,T(n) 是解决问题大小为 n 所花费的时间,即 1+n 步长。比如 T(n)=1+n 。当 n 变大时,常数 1 对于最终结果变得越来越不重要。如果我们找的是 T(n) 的近似值,我们...

2018-09-25 23:19:41 1161

原创 深度学习-感知器

感知器是神经网络的基础构成组件,是一个“神经元”。输入与权重和偏差构成线性关系,再经由激活函数转化为输出。感知器可以表示某些逻辑运算符,比如AND,OR,NOT运算符。...

2018-08-21 22:15:45 263

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除