自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

code_new_life的博客

学习日记

  • 博客(39)
  • 收藏
  • 关注

原创 20200419练习

查询各科成绩前三名的记录但凡遇到排名类问题,一个基本思路是直接自联结,然后根据要求,在where中添加条件即可;本题要求科目前三,则筛选同科目比自己大成绩数小于3即可select s.cid,s.sid,s.score from sc s where (select count(*) from sc a where s.cid = a.cid ...

2020-04-19 22:23:43 244

转载 ORACLE 中ROWNUM用法总结

转载自 添加链接描述ORACLE 中ROWNUM用法总结! 对于 Oracle 的 rownum 问题,很多资料都说不支持>,>=,=,between…and,只能用以上符号(<、<=、!=),并非说用>,& gt;=,=,between…and 时会提示SQL语法错误,而是经常是查不出一条记录来,还会出现似乎是莫名其妙的结果来,其实您只要理解好...

2020-04-15 23:14:49 270

原创 2020.4.15练习

按各科成绩进行排序,并显示排名, Score 重复时合并名次 select a.cid, a.sid, a.score, count(distinct b.score)+1 as rankfrom sc a left join sc b on a.score<b.score and a.cid = b.cidgroup by a.cid, a.sid,a.scoreorder...

2020-04-15 22:16:44 244

原创 2020.4.12练习

题目参考 [https://www.jianshu.com/p/476b52ee4f1b]参考数据:-- 学生表 Studentcreate table Student(SId varchar(10),Sname varchar(10),Sage datetime,Ssex varchar(10));insert into Student values('01' , '赵雷' , '199...

2020-04-12 23:34:23 225

原创 pd.factorize ( ) 解析

已经遇见好几个编码的函数了 真是心累官网说明从例子中可以看到 pd.factorize() 返回的是一个tuple ,包含连个元素,第二个是源数据中所有数据的类别,当然取出了nan ,第一个是源数据在类别中对应的序号组成的array 看到这里可以发现 和pd.Categorical() 真的是非常像了。...

2018-10-13 11:46:23 8618

原创 flatten( ) 和 ravel( ) 区分

在做项目时候遇见的flatten ( ) 函数 查询时候发现还有一个和它比较像的函数 在这里记录一下np.flatten( ) 官方文档ravel( ) 和 flatten( )都有展开的意思,默认按照行展开 传入 F 则按照列展开区别在于flatten 展开后是原来数据的copy 但是ravel 是原来数据的视图可以看到ravel() 赋值后原来数据变了 ,这就是两者不...

2018-10-08 22:49:21 2584 1

转载 卡方分布、t分布 和F分布

统计学之重要分布介绍一、卡方分布 二、t分布 小样本分布: 推导: 三、F分布 内容转载自 https://blog.csdn.net/liangzuojiayi/article/details/77947797...

2018-08-19 22:14:03 17894

原创 distinct 多列 的 用法理解

在使用 mysql 时候经常遇到需要使用 distinct 语句的时候,首先我们知道对于单列检索,distinct 返回唯一值例如 原始图表corporation number Alibaba 1001 Tencent 1002 Alibaba 1003 Netease 1004使用SELECT D...

2018-08-07 10:51:47 15811

原创 pd.Categorical 的用法

最近在数据处理过程中遇到 pd.Categorical() 因此特地查了一下 先给出官网的链接 http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Categorical.html我们直接通过例子来学习In [16]: st = ['a','a','b','c','c']In [17]: ss = pd.Ca...

2018-08-01 21:27:11 25359

原创 偏度(skewness)

偏度 偏度(skewness),是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。定义上偏度是样本的三阶标准化矩。偏度定义中包括正态分布(偏度=0),右偏分布(也叫正偏分布,其偏度&amp;gt;0),左偏分布(也叫负偏分布,其偏度&amp;lt;0)。为了在模型中避免因为偏度问题带来的误差,通常可以使用对数来达到目的转载自:https://blog.csdn.net/...

2018-07-01 16:27:53 14149

原创 LabelEncoder 和 OneHotEncoder 辨析

在特征工程工程中处理离散数据时候,需要将原来的数据转化成数字格式才能传入 模型,这时候需要用到两个编码函数1 labelEncoder LabelEncoder 可以理解为一个打标签的机器 首先 通过 fit 列表 a 来得到所有标签的种类, a 中可以有重复的数据,这个种类也就是 a 中所有不同数据的 集合,可以通过 le.classes_ 来查看,并且会给定顺序,每个数据有对...

2018-06-28 22:54:04 13291

原创 决策树 算法 小结

算法概述决策树 是一种基本的分类与回归方法。这里我们主要讨论用于分类的决策树。在分类过程中,根据各个特征对实例进行分类,它可以认为是 if - then 规则的集合,最大的优点是可读性强,分类速度快。 决策树 的学习通常包含三个步骤:特征选择、决策树的生成和决策树的剪枝。首先我们通过一个日常例子来直观了解一下 什么是决策树 生活中父母在为孩子介绍对象时候,发生的经典对话女儿...

2018-06-04 16:08:17 298

原创 K-means 法 小结

k-means 是一种聚类算法,这里首先明确一下分类和聚类的区别。分类:指从数据中归纳出一种做判断的模型,对于新的数据,通过这个模型,可以给出对应的标签。最常见的比如邮件分类器。开始系统并不认识什么是垃圾邮件,但是通过“训练”(比如你将内容中出现“大促销”的邮件都标记为垃圾邮件)一段时间后,如果新的邮件中出现‘大促销’的字段,系统会直接将此邮件打上‘垃圾’的标签。聚类:是将数据划分成不同区...

2018-05-25 10:46:30 10942 1

原创 K 近邻法 小结

原理概述:K 近邻法(KNN)是一中基本的分类与回归方法。其原理:假设给定一个训练数据集,其中各个数据的类别已知,当给定一个未知类别的数据 x 时候,可以得到训练数据集中 “ 距离 ” x 最近的K 个数据的类别,再根据这K个数据的类别,来决定 x 的最终类别。简单的讲就是:你周围的人是什么样子,我们就认为你是什么样子。模型基本要素基本要素分三个,分别为:K 值的选择;距离的度量;...

2018-05-24 09:39:04 271

原创 python 中的break 和 continue

break 和 continue 常常用在循环中。break 可以结束当前的循环,然后跳转到下一条语句(如果还有else 语句,则else 也直接跳过)。常常用在while 和 for 循环中,当某一个外部条件被触发,用以中断循环,执行之后的代码count = num/2while count &amp;amp;gt; 0: if num % count ==2: print (...

2018-05-23 08:45:30 2558 2

原创 python 中的除法

python2.* 与python3.* 的除法不同,都2018年了,我们直接看python3 真正的除法 /总是返回真正的商,而且不管除数与被除数的数据类型,返回的都是浮点型&gt;&gt;&gt; 9/33.0&gt;&gt;&gt; 9/24.5地板除法 //意思是不管结果中有没有小数,都直接舍去,返回整数部分&gt;&gt;&gt; 9//33&...

2018-05-23 08:16:16 31726 3

原创 plt.boxplot 箱线图

箱线图 又称 ‘ 盒 图 ’ 在1977年由美国的统计学家约翰·图基(John Tukey)发明的。 它由五个数值点组成:最小值(min),下四分位数(Q1),中位数(median),上四分位数(Q3),最大值(max)。 也可以往盒图里面加入平均值(mean)。下四分位数、中位数、上四分位数组成一个“带有隔间的盒子”。上四分位数到最大值之间建立一条延伸线,这个延伸线成为“胡须(whisker...

2018-05-14 18:45:26 13336 2

原创 SQL 让人惊喜的函数

COALESCE函数COALESCE函数会依次检查输入的参数,返回第一个不是NULL的参数,只有当传入COALESCE函数的所有的参数都是NULL的时候,函数才会返回NULL COALESCE ( expression1,expression2..... ) CASE WHEN类似python 中的where 函数 : 如果 怎么了 就怎样 “` 第一种 case ...

2018-05-10 21:16:04 235

原创 SQL 常用函数小结

常用的五个计量函数最常用几个的放在一起SELECT MAX(column_name) 求最大值FROM table_name WHERE condition;SELECT MIN(column_name) 求最小值FROM table_nameWHERE condition;SELECT COUNT(column_name) ...

2018-05-06 16:56:32 239

原创 tile() 函数

python tile() 函数简单介绍格式:tile(A,reps) * A:array_like 输入的array * reps:array_like A沿各个维度重复的次数for example:A=[1,2]tile(A,2)Out[10]: array([1, 2, 1, 2])tile(A,(2,2))Out[11]...

2018-05-04 18:10:00 6207

原创 numpy中matrix 和 array的区别

Numpy matrices必须是2维的,但是 numpy arrays (ndarrays) 可以是多维的(1D,2D,3D····ND). Matrix是Array的一个小的分支,包含于Array。所以matrix 拥有array的所有特性。【所以:在sklearn 中如果传入的特征只有一个,要使用x.values.reshape(-1,1) 转化格式】在numpy中matrix的主要优...

2018-05-04 15:36:44 578

转载 Jupyter notebook 快捷键

以下内容转自 https://blog.csdn.net/lawme/article/details/51034543###; Jupyter Notebook 的快捷键Jupyter Notebook 有两种键盘输入模式。编辑模式,允许你往单元中键入代码或文本;这时的单元框线是绿色的。命令模式,键盘输入运行程序命令;这时的单元框线是灰色。命令模式 (按键 Esc 开启)Enter ...

2018-04-24 21:00:55 133

原创 numpy 基础 这一篇就够了

我听到的会忘记,我看到的能记住,我做过的才真正明白.import numpy as np ndarray是Numpy最重要的一个特点,ndarray是一个通用的同构数据多维容器,也就是说其中的所有元素必须是相同类型的。创建方法:使用array函数。可以接受一切序列型的对象。In [4]: import numpy as npIn [5]: data=[123,435,7]...

2018-04-24 10:06:55 339

原创 python range( ) 和 arange( )

这两个函数都是python 中的常用函数,经常遇到,有时候还是会懵逼一会,这里特地记录一下首先 range( n ) 代表数字0 到(n-1) 在python 2 返回的是一个list , 但是python 3 返回的是一个range 对象,In [27]: a = range(10)In [28]: aOut[28]: range(0, 10)In [2...

2018-04-21 16:32:06 1327

原创 python 中 str.split( ) 函数

先看文档中是怎么说的 S.split(sep=None, maxsplit=-1) -&gt; list of strings Return a list of the words in S, using sep as the delimiter string. If maxsplit is given, at most maxsplit splits are...

2018-04-20 21:35:04 9801

原创 python 计数方法小结

在项目中经常会遇见需要计数的情况,最近在看《利用python进行数据分析》这里面提到了三个计数方法:方法一: 遍历法def get_counts(sequence): counts = {} for x in sequence: if x in counts: counts[x] += 1 else: ...

2018-04-20 21:14:36 7949

原创 matplotlib 绘图 中文无法显示

在用maitplotlib 绘图时候经常遇到中文无法正常显示的问题,如下产生中文乱码的原因就是字体的默认设置中并没有中文字体,所以我们只要手动添加中文字体的名称就可以了手动增加如下代码from pylab import * mpl.rcParams['font.sans-serif'] = ['SimHei'] ...

2018-04-16 18:53:41 176

原创 subplot2grid ( ) 绘图函数

在做kaggle 比赛查询的时候在一些博主的代码中发现这个函数ax1 = plt.subplot2grid((3,3), (0,0), colspan=3) ax2 = plt.subplot2grid((3,3), (1,0), colspan=2) #col 显示图形占2列ax3 = plt.subplot2grid((3,3), (1, 2), rowspan=2) #row ...

2018-04-16 10:10:05 5899

原创 python 中 setattr() 函数 和 getarrr() 函数

setattr() 用来创建属性,经常用在创建类时候,在 init 方法中如果为了以后再加上某些属性,可以留一个关键字参数 setattr() 接受三个参数 setattr(对象,属性名,属性值)class Person(object): def __init__(self,name,gender,birth,**kw): self.name = name...

2018-04-14 10:49:19 1618

原创 list.sort 方法 和内置函数sorted

list.sort() 方法会就地排序列表,也就是说是针对原来的数据进行改变,而不是新建一个列表,然后返回None ,&gt;&gt;&gt; a = ['action','is','better','than','nothing']&gt;&gt;&gt; a.sort()&gt;&gt;&gt; a['action', 'better', 'is', 'nothing', 'th...

2018-04-14 10:04:05 493

原创 SQL 进阶知识点

上一篇文章简要介绍了SQL最常用的四种语句,下面将学习一些常用的语句,让检索更加准确和方便。1.返回top n 语句在数据量比较大的时候,返回所有数据是非常消耗资源的,这时候往往只要求排名前几名的数据,就要用到 SELECT TOP SELECT TOP number|percent column_name(s)FROM table_nameWHERE condition...

2018-04-10 10:45:50 425

原创 SQL 30分钟极速入门

常见的数据库有MySQL、SQL Server、Access、Oracle、Sybase、DB2等 ,SQL就是用来操作这些数据库的语言,这里我们用很短的时间对SQL 的最基础和常用部分做一下总结,帮助你快速入门,学会使用SQL.至于使用哪种数据库软件基于实际情况,如何进入SQL 视图可以参考百度结果。在学习SQL过程中我的感觉是这是一门 “ 逻辑清晰 ” 的语言。其语言在使用中总体呈以下形式...

2018-04-08 16:29:13 9490

原创 pandas 时间序列 之日期范围、频率及移动

生成日期范围 用到函数为 pandas.date_range :使用时有三种方法:第一种传入 开始和结束时间:index = pd.date_range('4/1/2012', '6/1/2012') #默认按天计算indexDatetimeIndex(['2012-05-13', '2012-05-14', '2012-05-15', '2012-05-16', ...

2018-04-01 21:58:07 7287

原创 pandas 时间序列基础

pandas 中最常用的时间序列类型就是以时间戳为索引的Series :from datetime import datetimedates = [datetime(2011, 1, 2), datetime(2011, 1, 5), datetime(2011, 1, 7), datetime(2011, 1, 8), datetime(2011, 1, 10), date...

2018-04-01 11:11:46 351

原创 pands 时间序列 之日期和时间数据类型及工具

Python 标准库包含用于日期(date)和时间(time)数据的数据类型,而且还有日历方面的功能,我们主要会用到datetime、time以及calendar模块。datetime.datetime 是用的最多的数据类型:In [1]: from datetime import datetimeIn [2]: now = datetime.now()In [3]: nowOut[3...

2018-04-01 10:22:54 399

原创 matplotlib 基础

我听到的会忘记,我看到的能记住,我做过的才真正明白.首先利用 (ipython --pylab) 可以进入Pylab 模式,这样IPython配置为使用你所指定的matplotlib GUI后端(TK/wxPython/PyQt/Mac OS X native/GTK)。对于大部分用户而言,默认的后端就已经够用了。Pylab模式还会向IPython引入一大堆模块和函数以提供一种更接近MATLAB的...

2018-03-28 22:47:06 239

原创 join ( ) 函数

我听到的会忘记,我看到的能记住,我做过的才真正明白.join()函数     用特定的字符或者符号来分隔一串元素语法:  ' A ' . join ( B )参数说明A:分隔符。可以为空或者空格甚至是数字B:要连接的元素序列、字符串、元组、字典上面的语法即:以 A 作为分隔符,将 B 所有的元素合并成一个新的字符串返回值:返回一个以分隔符  A 连接各个元素后生成的字符串&gt;&gt;&gt; ...

2018-03-27 21:01:08 9209

原创 pandas.cut qcut 面元划分

我听到的会忘记,我看到的能记住,我做过的才真正明白.cut 用法:        pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False) 返回 x 中的每一个数据 在bins 中对应 的范围 其中:        X  : 必须是一维数据        bins: ...

2018-03-27 17:54:46 3375

原创 rand, randn, randint, seed 等

我听到的会忘记,我看到的能记住,我做过的才真正明白.rand(d0, d1, ..., dn)指定形状的随机值   大小随机均匀分布在[0,1)内 &gt;&gt;&gt; np.random.rand(3,2) array([[0.95396626, 0.66629492], [0.51995889, 0.17892984], [0.42417286, 0.29742...

2018-02-10 16:36:38 2306

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除