JING先生-CSDN博客

原创 MYSQL中的几种约束方法

约束就是数据表中的限制条件，为保证表的完整和有效。比如我要建立一个班级成员的信息表：CREATE TABLE person (person_id SMALLINT UNSIGNED name VARCHAR(20), gender CHAR(1), birth_date DATE, CONSTRAINT pk_person PRIMARY KEY person_id...

2019-02-18 18:04:19 588

Seaborn是基于matplotlib的Python可视化库，可以视为matplotlib的补充。我在用BlackFriday数据集练手的时候，发现了countplot计数图，官网上的解释是：seaborn.countplot（x =无，y =无，hue =无，数据=无，顺序=无，hue_order =无，orient =无，color =无，palette = None，饱和度= 0.75...

2019-01-16 23:17:13 5225

原创 pandas的agg函数不支持字典格式了？

我在使用pandas进行数据分析时遇到了如下问题：result = data.groupby('通信品牌')['号码'].agg({'用户数':np.size})错误提示：FutureWarning: using a dict on a Series for aggregationis deprecated and will be removed in a future version...

2019-01-08 07:25:08 864

原创对泰坦尼克号项目的简单分析

泰坦尼克号项目数据可在kaggle上免费下载。一、分析目的：探索泰坦尼克号乘客存活影响因素import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib notebookplt.rcParams['font.sans-serif'] = ['FangSong'] plt.rcParams[...

2019-01-08 06:45:16 1754

原创数据分析之交叉分析

交叉分析通常用于两个或两个以上分组变量之间的关系，以交叉表形式进行变量间关系的对比分析。我们将两个具有一定联系的变量设置为行变量和列变量，把统计数据制作成二维交叉表格(数据透视表)。通常使用的函数是pivot_table()。pivot_table(values, index, columns, aggfunc, fill_value)参数说明如下：参数描述values...

2018-12-12 23:19:10 27141 2

原创数据分析之字段抽取

字段抽取常用slice(start, stop)函数，比如我有下面的一串数据：想将前三位，中间四位和后面四位抽取出来。首先我要把他们都转化成字符串形式data['tel'] = data['tel'].astype('str')再用如下代码进行字段的抽取：data['1'] = data['tel'].str.slice(0, 3)data['2'] = data['tel'].st...

2018-12-10 23:52:14 1150

原创数据分析之清除空格值

空格值的清除常用strip()函数。先导入有空格值的数据。data.at[1, 'name']可以看到字符串的前后都是有空格的。然后我们使用strip()函数。data['name'] = data['name'].str.strip()datadata.at[1, 'name']前后的空格值都被清除了。你还可以用lstrip(),rstrip()分别清除字符串左右的...

2018-12-08 17:04:56 462

原创数据分析之重复值处理

最常用drop_duplicates()函数，它把行相同的多余的重复的数据去除，直接在对象中使用该函数即可，它会返回去除重复值后的对象。df = pd.DataFrame({'A': [1, 2, 1, 4, 5], 'B': [5, 6, 5, 8, 9], 'C': [1, 2, 1, 4, 5], ...

2018-12-08 16:37:41 2831

原创数据清洗——处理缺失值

我们最初的数据会因为各种各样的原因——信息无法获取，被遗漏——而产生缺失值

2018-12-01 19:19:31 2395

原创 matplotlib画折线图

幸运的是，DataFrame和Series都有一个plot属性，默认情况下，plot()绘制的是折线图。因为现在在玩kaggle，所以我就以kaggle上的avocado-prices数据集为例，在jupyter notebook上绘制折线图。先导入数据：import numpy as npimport pandas as pdimport matplotlib.pyplot as plt...

2018-11-26 00:10:31 1465

原创 matplotlib画柱状图

import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib notebookplt.rcParams['font.sans-serif'] = ['FangSong'] plt.rcParams['axes.unicode_minus'] = False 上面最后的两行代码是为了能在j...

2018-11-23 08:07:23 2127

原创 groupby机制

groupby：分割，应用和组合。groupby经常只需一行代码，就可以计算每组的和，均值，计数，最小值以及其他累计值。它返回一个DataFrameGroupby对象，你可以将它看成是一个特殊的DataFrame对象，里面隐藏着若干组数据。groupby的基本操作方法：从创建DataFrame开始：df = pd.DataFrame({'key1': ['a', 'a', 'b', 'b'...

2018-11-19 12:00:14 1438

原创什么是栈：Python语言描述

栈（stack）是一个项的有序集合，其中添加移除新项总发生在同一端。这一端通常称为“顶部”。与顶部对应的端称为“底部”。就像图片所描述的，栈s=(a1,a2,…an-1,an)。最后入栈的是an，最先出栈的也是an。所以栈符合LIFO原则。LIFOLIFO，即后进先出的排序原则。它基于在集合内的时间长度做排序。较新的项靠近顶部，较旧的项靠近底部。栈的底部很重要，因为在栈中靠近底部的项是存储...

2018-09-30 07:39:57 1548

翻译大O符号

在我们通过执行时间来表征算法的效率时，函数的数量级表示了随着 n 的值增加而增加最快的那些部分。数量级通常称为大O符号，写为 O(f(n)) 。它表示对计算中的实际步数的近似。参数 n 通常称为‘问题的规模’，T(n) 是解决问题大小为 n 所花费的时间，即 1+n 步长。比如 T(n)=1+n 。当 n 变大时，常数 1 对于最终结果变得越来越不重要。如果我们找的是 T(n) 的近似值，我们...

2018-09-25 23:19:41 1333

原创深度学习-感知器

感知器是神经网络的基础构成组件，是一个“神经元”。输入与权重和偏差构成线性关系，再经由激活函数转化为输出。感知器可以表示某些逻辑运算符，比如AND，OR，NOT运算符。...

2018-08-21 22:15:45 308

bj_109的博客