code_new_life-CSDN博客

原创 20200419练习

查询各科成绩前三名的记录但凡遇到排名类问题，一个基本思路是直接自联结，然后根据要求，在where中添加条件即可；本题要求科目前三，则筛选同科目比自己大成绩数小于3即可select s.cid,s.sid,s.score from sc s where (select count(*) from sc a where s.cid = a.cid ...

2020-04-19 22:23:43 255

转载 ORACLE 中ROWNUM用法总结

转载自添加链接描述ORACLE 中ROWNUM用法总结! 对于 Oracle 的 rownum 问题，很多资料都说不支持>,>=,=,between…and，只能用以上符号(<、<=、!=)，并非说用>,& gt;=,=,between…and 时会提示SQL语法错误，而是经常是查不出一条记录来，还会出现似乎是莫名其妙的结果来，其实您只要理解好...

2020-04-15 23:14:49 283

原创 2020.4.15练习

按各科成绩进行排序，并显示排名， Score 重复时合并名次 select a.cid, a.sid, a.score, count(distinct b.score)+1 as rankfrom sc a left join sc b on a.score<b.score and a.cid = b.cidgroup by a.cid, a.sid,a.scoreorder...

2020-04-15 22:16:44 257

原创 2020.4.12练习

题目参考 [https://www.jianshu.com/p/476b52ee4f1b]参考数据：-- 学生表 Studentcreate table Student(SId varchar(10),Sname varchar(10),Sage datetime,Ssex varchar(10));insert into Student values('01' , '赵雷' , '199...

2020-04-12 23:34:23 234

原创 pd.factorize ( ) 解析

已经遇见好几个编码的函数了真是心累官网说明从例子中可以看到 pd.factorize() 返回的是一个tuple ,包含连个元素，第二个是源数据中所有数据的类别，当然取出了nan ，第一个是源数据在类别中对应的序号组成的array 看到这里可以发现和pd.Categorical() 真的是非常像了。...

2018-10-13 11:46:23 8653

原创 flatten( ) 和 ravel( ) 区分

在做项目时候遇见的flatten ( ）函数查询时候发现还有一个和它比较像的函数在这里记录一下np.flatten( ) 官方文档ravel( ) 和 flatten（）都有展开的意思，默认按照行展开传入 F 则按照列展开区别在于flatten 展开后是原来数据的copy 但是ravel 是原来数据的视图可以看到ravel() 赋值后原来数据变了，这就是两者不...

2018-10-08 22:49:21 2612 1

转载卡方分布、t分布和F分布

统计学之重要分布介绍一、卡方分布二、t分布小样本分布：推导：三、F分布内容转载自 https://blog.csdn.net/liangzuojiayi/article/details/77947797...

2018-08-19 22:14:03 17996

原创 distinct 多列的用法理解

在使用 mysql 时候经常遇到需要使用 distinct 语句的时候，首先我们知道对于单列检索，distinct 返回唯一值例如原始图表corporation number Alibaba 1001 Tencent 1002 Alibaba 1003 Netease 1004使用SELECT D...

2018-08-07 10:51:47 15894

原创 pd.Categorical 的用法

最近在数据处理过程中遇到 pd.Categorical() 因此特地查了一下先给出官网的链接 http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Categorical.html我们直接通过例子来学习In [16]: st = ['a','a','b','c','c']In [17]: ss = pd.Ca...

2018-08-01 21:27:11 25480

原创偏度(skewness)

偏度偏度（skewness），是统计数据分布偏斜方向和程度的度量，是统计数据分布非对称程度的数字特征。定义上偏度是样本的三阶标准化矩。偏度定义中包括正态分布（偏度=0），右偏分布（也叫正偏分布，其偏度&gt;0），左偏分布（也叫负偏分布，其偏度&lt;0）。为了在模型中避免因为偏度问题带来的误差，通常可以使用对数来达到目的转载自：https://blog.csdn.net/...

2018-07-01 16:27:53 14292

原创 LabelEncoder 和 OneHotEncoder 辨析

在特征工程工程中处理离散数据时候，需要将原来的数据转化成数字格式才能传入模型，这时候需要用到两个编码函数1 labelEncoder LabelEncoder 可以理解为一个打标签的机器首先通过 fit 列表 a 来得到所有标签的种类， a 中可以有重复的数据，这个种类也就是 a 中所有不同数据的集合，可以通过 le.classes_ 来查看，并且会给定顺序，每个数据有对...

2018-06-28 22:54:04 13384

原创决策树算法小结

算法概述决策树是一种基本的分类与回归方法。这里我们主要讨论用于分类的决策树。在分类过程中，根据各个特征对实例进行分类，它可以认为是 if - then 规则的集合，最大的优点是可读性强，分类速度快。决策树的学习通常包含三个步骤：特征选择、决策树的生成和决策树的剪枝。首先我们通过一个日常例子来直观了解一下什么是决策树生活中父母在为孩子介绍对象时候，发生的经典对话女儿...

2018-06-04 16:08:17 311

原创 K-means 法小结

k-means 是一种聚类算法，这里首先明确一下分类和聚类的区别。分类：指从数据中归纳出一种做判断的模型，对于新的数据，通过这个模型，可以给出对应的标签。最常见的比如邮件分类器。开始系统并不认识什么是垃圾邮件，但是通过“训练”（比如你将内容中出现“大促销”的邮件都标记为垃圾邮件）一段时间后，如果新的邮件中出现‘大促销’的字段，系统会直接将此邮件打上‘垃圾’的标签。聚类：是将数据划分成不同区...

2018-05-25 10:46:30 10976 1

原创 K 近邻法小结

原理概述：K 近邻法（KNN）是一中基本的分类与回归方法。其原理：假设给定一个训练数据集，其中各个数据的类别已知，当给定一个未知类别的数据 x 时候，可以得到训练数据集中 “ 距离 ” x 最近的K 个数据的类别，再根据这K个数据的类别，来决定 x 的最终类别。简单的讲就是：你周围的人是什么样子，我们就认为你是什么样子。模型基本要素基本要素分三个，分别为：K 值的选择；距离的度量；...

2018-05-24 09:39:04 285

原创 python 中的break 和 continue

break 和 continue 常常用在循环中。break 可以结束当前的循环，然后跳转到下一条语句（如果还有else 语句，则else 也直接跳过）。常常用在while 和 for 循环中，当某一个外部条件被触发，用以中断循环，执行之后的代码count = num/2while count &amp;gt; 0: if num % count ==2: print (...

2018-05-23 08:45:30 2575

原创 python 中的除法

python2.* 与python3.* 的除法不同，都2018年了，我们直接看python3 真正的除法 /总是返回真正的商，而且不管除数与被除数的数据类型，返回的都是浮点型>>> 9/33.0>>> 9/24.5地板除法 //意思是不管结果中有没有小数，都直接舍去，返回整数部分>>> 9//33&...

2018-05-23 08:16:16 31780 3

原创 plt.boxplot 箱线图

箱线图又称 ‘ 盒图 ’ 在1977年由美国的统计学家约翰·图基(John Tukey)发明的。它由五个数值点组成：最小值(min)，下四分位数(Q1)，中位数(median)，上四分位数(Q3)，最大值(max)。也可以往盒图里面加入平均值(mean)。下四分位数、中位数、上四分位数组成一个“带有隔间的盒子”。上四分位数到最大值之间建立一条延伸线，这个延伸线成为“胡须(whisker...

2018-05-14 18:45:26 13387 2

原创 SQL 让人惊喜的函数

COALESCE函数COALESCE函数会依次检查输入的参数，返回第一个不是NULL的参数，只有当传入COALESCE函数的所有的参数都是NULL的时候，函数才会返回NULL COALESCE ( expression1，expression2..... ) CASE WHEN类似python 中的where 函数：如果怎么了就怎样 “` 第一种 case ...

2018-05-10 21:16:04 245

原创 SQL 常用函数小结

常用的五个计量函数最常用几个的放在一起SELECT MAX(column_name) 求最大值FROM table_name WHERE condition;SELECT MIN(column_name) 求最小值FROM table_nameWHERE condition;SELECT COUNT(column_name) ...

2018-05-06 16:56:32 251

原创 tile() 函数

python tile() 函数简单介绍格式：tile（A,reps） * A：array_like 输入的array * reps：array_like A沿各个维度重复的次数for example：A=[1,2]tile(A,2)Out[10]: array([1, 2, 1, 2])tile(A,(2,2))Out[11]...

2018-05-04 18:10:00 6231

Numpy matrices必须是2维的,但是 numpy arrays (ndarrays) 可以是多维的（1D，2D，3D····ND）. Matrix是Array的一个小的分支，包含于Array。所以matrix 拥有array的所有特性。【所以：在sklearn 中如果传入的特征只有一个，要使用x.values.reshape(-1,1) 转化格式】在numpy中matrix的主要优...

2018-05-04 15:36:44 597

转载 Jupyter notebook 快捷键

以下内容转自 https://blog.csdn.net/lawme/article/details/51034543###; Jupyter Notebook 的快捷键Jupyter Notebook 有两种键盘输入模式。编辑模式，允许你往单元中键入代码或文本；这时的单元框线是绿色的。命令模式，键盘输入运行程序命令；这时的单元框线是灰色。命令模式 (按键 Esc 开启)Enter ...

2018-04-24 21:00:55 139

原创 numpy 基础这一篇就够了

我听到的会忘记,我看到的能记住,我做过的才真正明白.import numpy as np ndarray是Numpy最重要的一个特点，ndarray是一个通用的同构数据多维容器，也就是说其中的所有元素必须是相同类型的。创建方法：使用array函数。可以接受一切序列型的对象。In [4]: import numpy as npIn [5]: data=[123,435,7]...

2018-04-24 10:06:55 344

原创 python range( ) 和 arange( )

这两个函数都是python 中的常用函数，经常遇到，有时候还是会懵逼一会，这里特地记录一下首先 range( n ) 代表数字0 到（n-1）在python 2 返回的是一个list , 但是python 3 返回的是一个range 对象，In [27]: a = range(10)In [28]: aOut[28]: range(0, 10)In [2...

2018-04-21 16:32:06 1336

原创 python 中 str.split( ) 函数

先看文档中是怎么说的 S.split(sep=None, maxsplit=-1) -> list of strings Return a list of the words in S, using sep as the delimiter string. If maxsplit is given, at most maxsplit splits are...

2018-04-20 21:35:04 9848

原创 python 计数方法小结

在项目中经常会遇见需要计数的情况，最近在看《利用python进行数据分析》这里面提到了三个计数方法：方法一：遍历法def get_counts(sequence): counts = {} for x in sequence: if x in counts: counts[x] += 1 else: ...

2018-04-20 21:14:36 7971

原创 matplotlib 绘图中文无法显示

在用maitplotlib 绘图时候经常遇到中文无法正常显示的问题，如下产生中文乱码的原因就是字体的默认设置中并没有中文字体，所以我们只要手动添加中文字体的名称就可以了手动增加如下代码from pylab import * mpl.rcParams['font.sans-serif'] = ['SimHei'] ...

2018-04-16 18:53:41 181

原创 subplot2grid ( ) 绘图函数

在做kaggle 比赛查询的时候在一些博主的代码中发现这个函数ax1 = plt.subplot2grid((3,3), (0,0), colspan=3) ax2 = plt.subplot2grid((3,3), (1,0), colspan=2) #col 显示图形占2列ax3 = plt.subplot2grid((3,3), (1, 2), rowspan=2) #row ...

2018-04-16 10:10:05 5927

原创 python 中 setattr() 函数和 getarrr() 函数

setattr() 用来创建属性，经常用在创建类时候，在 init 方法中如果为了以后再加上某些属性，可以留一个关键字参数 setattr() 接受三个参数 setattr(对象，属性名，属性值）class Person(object): def __init__(self,name,gender,birth,**kw): self.name = name...

2018-04-14 10:49:19 1636

原创 list.sort 方法和内置函数sorted

list.sort() 方法会就地排序列表，也就是说是针对原来的数据进行改变，而不是新建一个列表，然后返回None ，>>> a = ['action','is','better','than','nothing']>>> a.sort()>>> a['action', 'better', 'is', 'nothing', 'th...

2018-04-14 10:04:05 514

原创 SQL 进阶知识点

上一篇文章简要介绍了SQL最常用的四种语句，下面将学习一些常用的语句，让检索更加准确和方便。1.返回top n 语句在数据量比较大的时候，返回所有数据是非常消耗资源的，这时候往往只要求排名前几名的数据，就要用到 SELECT TOP SELECT TOP number|percent column_name(s)FROM table_nameWHERE condition...

2018-04-10 10:45:50 436

原创 SQL 30分钟极速入门

常见的数据库有MySQL、SQL Server、Access、Oracle、Sybase、DB2等，SQL就是用来操作这些数据库的语言，这里我们用很短的时间对SQL 的最基础和常用部分做一下总结，帮助你快速入门，学会使用SQL.至于使用哪种数据库软件基于实际情况，如何进入SQL 视图可以参考百度结果。在学习SQL过程中我的感觉是这是一门 “ 逻辑清晰 ” 的语言。其语言在使用中总体呈以下形式...

2018-04-08 16:29:13 9636

原创 pandas 时间序列之日期范围、频率及移动

生成日期范围用到函数为 pandas.date_range ：使用时有三种方法：第一种传入开始和结束时间：index = pd.date_range('4/1/2012', '6/1/2012') #默认按天计算indexDatetimeIndex(['2012-05-13', '2012-05-14', '2012-05-15', '2012-05-16', ...

2018-04-01 21:58:07 7315

原创 pandas 时间序列基础

pandas 中最常用的时间序列类型就是以时间戳为索引的Series :from datetime import datetimedates = [datetime(2011, 1, 2), datetime(2011, 1, 5), datetime(2011, 1, 7), datetime(2011, 1, 8), datetime(2011, 1, 10), date...

2018-04-01 11:11:46 361

原创 pands 时间序列之日期和时间数据类型及工具

Python 标准库包含用于日期（date）和时间(time)数据的数据类型，而且还有日历方面的功能，我们主要会用到datetime、time以及calendar模块。datetime.datetime 是用的最多的数据类型：In [1]: from datetime import datetimeIn [2]: now = datetime.now()In [3]: nowOut[3...

2018-04-01 10:22:54 412

原创 matplotlib 基础

我听到的会忘记,我看到的能记住,我做过的才真正明白.首先利用 (ipython --pylab) 可以进入Pylab 模式，这样IPython配置为使用你所指定的matplotlib GUI后端（TK/wxPython/PyQt/Mac OS X native/GTK)。对于大部分用户而言，默认的后端就已经够用了。Pylab模式还会向IPython引入一大堆模块和函数以提供一种更接近MATLAB的...

2018-03-28 22:47:06 244

原创 join ( ) 函数

我听到的会忘记,我看到的能记住,我做过的才真正明白.join()函数用特定的字符或者符号来分隔一串元素语法： ' A ' . join ( B )参数说明A：分隔符。可以为空或者空格甚至是数字B：要连接的元素序列、字符串、元组、字典上面的语法即：以 A 作为分隔符，将 B 所有的元素合并成一个新的字符串返回值：返回一个以分隔符 A 连接各个元素后生成的字符串>>> ...

2018-03-27 21:01:08 9258

原创 pandas.cut qcut 面元划分

我听到的会忘记,我看到的能记住,我做过的才真正明白.cut 用法： pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False) 返回 x 中的每一个数据在bins 中对应的范围其中： X ：必须是一维数据 bins: ...

2018-03-27 17:54:46 3415

原创 rand, randn, randint, seed 等

我听到的会忘记,我看到的能记住,我做过的才真正明白.rand(d0, d1, ..., dn)指定形状的随机值大小随机均匀分布在[0,1)内 >>> np.random.rand(3,2) array([[0.95396626, 0.66629492], [0.51995889, 0.17892984], [0.42417286, 0.29742...

2018-02-10 16:36:38 2334

空空如也

空空如也