Echoblabla-CSDN博客

原创 SQL牛客一些错题反思

题目1查找各个部门当前(dept_manager.to_date=‘9999-01-01’)领导当前(salaries.to_date=‘9999-01-01’)薪水详情以及其对应部门编号dept_no(注:输出结果以salaries.emp_no升序排序，并且请注意输出结果里面dept_no列是最后一列)CREATE TABLE salaries (emp_no int(11) NOT NULL, – ‘员工编号’,salary int(11) NOT NULL,from_date date

2020-11-27 12:50:51 238

原创多表连接SQL知识点回顾

几种连接查询原理回顾多表连接的结果通过三个属性决定：方向性：在外连接中写在前边的表为左表、写在后边的表为右表。主附关系：主表要出所有的数据范围，附表与主表无匹配项时标记为null，内连接时无主附表之分对应关系：关键字段中有重复值的表为多表，没有重复值的表为一表。对应关系：一对一、一对多或多对一、多对多连接方式：内连接：select ename,job,hiredate,sal,dnamefrom empinner join depton emp.deptno=dept.dept

2020-11-27 09:37:01 486

原创 SQL学习知识点总结

where 与having区别where子句作用于表，having子句作用于组。where条件查询的作用域是针对数据表进行筛选，而having条件查询则是对分组结果进行过滤。where在分组和聚合计算之前筛选行，而having 在分组和聚合之后筛选分组的行，因此where子句不能包含聚合函数。Select 语句执行顺序From→Where→Group by→having→select→order by→limit子查询一个select语句中包含另一个或多个完整的select语句子查询出现的位

2020-11-22 23:15:09 360

原创 SQL一些不熟悉函数总结

分组合并函数GROUP_CANCAT([distinct] str [order by str asc/desc] [separator])将group by产生的同一个分组中的值连接起来，返回一个字符串结果示例：查询每个部门的员工姓名mysql> select deptno,group_concat(ename) -> from emp -> group by deptno;+--------+--------------------------------------+

2020-11-22 23:14:26 349

原创 SQL的一些函数总结

日期函数数学函数字符串函数

2020-11-22 22:33:21 513

原创机器学习中的调参思想

对于模型调参，第一步是要找准目标：我们要做什么？一般来说，这个目标是提升某个模型评估指标，比如对于随机森林来说，我们想要提升的是模型在未知数据上的准确率（由score或oob_score_来衡量）。找准了这个目标，我们就需要思考：模型在未知数据上的准确率受什么因素影响？在机器学习中，我们用来衡量模型在未知数据上的准确率的指标，叫泛化误差泛化误差当模型在未知数据（测试集或者袋外数据）上表现糟糕时，我们说模型的泛化程度不够，泛化误差大，模型的效果不好。泛化误差受到模型的结构（复杂度）影响。看下面这张图，它准

2020-07-25 22:55:29 411

原创数据分析——随机森林

随机森林是bagging算法的典型代表，所谓bagging算法也即随机有放回抽取部分样本进行平行测试，输出平行结果，以少数服从多数原则或者平均原则确定最终结果。与bagging算法相对的就是Boosting算法，boosting算法是一种梯度算法。其以基评估器为基础，对评估存在错误的样本给予更高的权重进行下一层评估由此进行迭代。最终由一个弱学习组合成强学习。其重要代表有adaboost,梯度提升树。随机森林的概念理解随机森林是一片决策树的森林，在多颗决策树的基础上进行分类解决了决策树本身泛化能力弱的

2020-07-24 15:44:10 1822

原创数据分析——支持向量机

问题一：哪个平面是划分这两个点的最佳方案对偶问题利用拉格朗日乘子法进行极值的计算问题求解SMO算法问题的重点在于求解a，如何求解a是问题的核心步骤：SMO算法的求解步骤：核函数对于此种情形，已经无法在二维平面进行划分，因此我们采用映射到更高维空间。定理：如果原始样本空间是有限维度，即属性数有限，那么一定存在一个高维特征空间使样本线性可分常用的核函数软间隔与正则化由于经过高维映射后的样本并不一定完全线性可分因此我们将不能完全线性科分的样本的分隔称为软间隔对于软间

2020-07-22 19:07:45 435

原创数据分析——聚类分析

聚类分析是一种无监督学习的分类算法所谓的无监督学习就是在机器学习过程中并无结果数据进行指导。样本是无明确标签的，只能根据样本之间属性关系进行分类。聚类的概念相似性度量算法步骤聚类结果的性能度量K-means优缺点K-Mediods优缺点：层次聚类（系谱聚类）Python实现K-Meansfrom sklearn.datasets import load_irisfrom sklearn.cluster import KMeansiris=load_iris

2020-07-20 14:59:41 1122

原创数据分析——朴素贝叶斯

朴素朴素贝叶斯的基础是贝叶斯定理：贝叶斯定理P（AB）=P（A)P（B|A）P(A|B)=[P(B|A)P(A)]/P(B)在遇到具体情况需要区分不同数据所呈现的类别时，我们需要引用贝叶斯定理。问题在于，当我们再次应用时：实际上这是无法或者很难获得的。因此朴素贝叶斯的朴素之处在于：它假设样本的属性是相互独立的因此我们根据独立得到朴素贝叶斯的表达式：案例判断好瓜坏瓜1、计算P（Xi|Y)f...

2020-07-20 12:40:46 377

原创数据分析——KNN算法

KNN算法的概念KNN算法的计算步骤1、距离2、邻居3、分类算法流程优缺点Python实现

2020-07-18 12:48:18 357

原创数据分析——BP神经网络

BP神经网络的构造机理其中可以调整的参数是r、w、v、thta我们将r、theta称为阈值；w、v称为权值；通过调整这几个参数不断训练缩小误差；从而使得训练集真实值和输出值误差不断缩小；进而才可使测试集预测值更为准确。import pandas as pdimport numpy as npdata_tr=pd.read_csv('./BPdata_tr.txt')yita=0.05#学习速率n=len(data_tr)def sigmoid(x):#网络激活函数 return

2020-07-18 12:24:43 2242

原创数据分析——决策树

决策树的基本概念女孩的相亲对象抉择问题天气情况对是否打高尔夫抉择结果：拆分属性抉择问题理想情况：在拆分过程中，当叶节点只拥有单一类别时，将不必继续拆分。目标时寻找较小的数，希望递归过程尽早停止如果能测量每一节点的纯度，就可以选择能产生最纯子节点的那个属性进行拆分；决策树算法通常按照纯度的增加来选择拆分属性熵值的概念信息增益：对纯度提升的程度天气属性的信息增益：ID3算法的详细实现步骤缺点泰坦尼克号生还者预测我们发现数据的性别还是类型变量需要转化为数值型的数据，ag

2020-07-16 19:13:38 762

原创数据分析——回归分析

性能度量from sklearn.metrics import precision_scorefrom sklearn.metrics import classification_reporty_true=[1,0,1,1,0]#样本实际值y_pred=[1,0,1,0,0]#模型预测值res=precision_score(y_true,y_pred,average=None)#准确率res=classification_report(y_true,y_pred)print(res)

2020-07-15 18:01:26 681

原创数据分析入门——scikit-learn模型

scikit-learn模型数据集加载函数解释数据集的划分k折交叉验证划分训练集和测试集的函数的from sklearn.model_selection import train_test_splittrain_data,teat_data,train_target,test_target=train_test _split(data['data'],data['target'],test_size=0.2)sklearn转换器的from sklearn.preprocessin

2020-07-13 15:19:22 609

原创数据分析入门——数据预处理2

对于类型特征重复的判断sim_dis=pf.Dataframe([],index=['counts','amounts'],columns=['counts','amounts']for i in ['counts','amounts']: for j in ['counts','amounts']: sim_dis.loc[i,j]=data[i].equals(data[j]) print( sim_dis)3、检测和处理缺失值可以用上面学习的describe也可以利用isnull或

2020-07-12 23:26:33 281

原创数据分析入门——数据预处理

合并数据1、横向与纵向堆叠按照行名称进行合并函数：pandas.concat2、纵向堆叠appendappend要求所有列必须一致才可以使用3、主键合并merge函数发pd.merge(order,data,left_on='info_id',right_on='order_id')2、主键合并join方法sdata.join(order,,on='order_id',rsuffix='1')#右合并2、重叠合并数据combing_firstpandas.datefr

2020-07-12 21:30:58 404

原创数据分析入门——pandas统计分析2

分组聚合进行组内运算1、agg、aggregate可以对每个分组应用函数data_gb.agg({'counts':np.sum,'amounts':[np.sum,np.mean]})3、apply方法与agg类型却只能作用于整列，但不能对某一列执行特定函数，只能批量作用所有列4、transform方法fdata[['counts','amounts']].transform(lambda x：x**2))data_gb.transform(lambda x:(x.mean()-x.m

2020-07-12 20:39:53 288

原创数据分析入门——pandas统计分析1

读取数据1、读取文本文件（1）通过read_table读取文本文件(2)通过read_csv来读取csv文件区别在于table是用\t来分割，csv是用,来分隔import pandas as pdpd.read_table('./meal_order_info.csv',encoding='gbk',sep=',')#encoding规定了编码格式，sep确定了分隔符号2、文本文件的存储data.to csv('./temp/temp.csv',index=false)#index

2020-07-12 14:32:47 401

原创数据分析入门——Matplotlib数据可视化

1、创建画布import matplotlib.pyplot as pltplt.figure(figsize=(4,4))import numpy as npx=np.arange(10)plt.title('echos picture')plt.plot(x,np.sin(x))plt.plot(x,np.tan(x))plt.legend(['sin','tan'])plt.show()散点图的绘制data=np.load('./国民经济核算季度数据.npz')data

2020-07-09 23:29:56 329

原创数据分析python入门——numpy2

创建numpy矩阵矩阵与数相乘：matrix3矩阵相加减：matri1+matri2矩阵相乘：matri1matri2矩阵对应元素相乘：np.muitiply(matri1,matri2)ucfunc函数一维数组的广播机制二维数组的广播机制Numpy进行统计分析读取文件直接排序去重与重复数据处理unique函数可以找出数组中的唯一值并返回已排序的结果tile函数主要有两个参数，参数“a"指定重复的数组，参数”reps"指定重复的次数np.tile(A,reps)repeat函

2020-07-09 15:34:53 372

原创数据分析python入门——numpy1

数组对象ndarryimport numpy as np#导入numpy库arrl=np.array([1,2,3,4])#创建一维数组print('创建数组为：',arrl)arrl2=np.array([1,2,3,4],[4,5,6,7]，[7,8,9,10])#创建二维数组#重设数组shape属性arr2.shape=4,3#重新设置shape使用linspace创建数组使用logspace创建等比数列使用zero函数创建数组使用eye来创造E类型数组使用diag函数创造

2020-07-09 14:15:49 333

原创程序媛的进阶之路——类和对象

class turtle:#python中的类名以大写字母开头#属性color='green'weight=10legs=4shell=truemouth='大嘴'#方法def climb(self) print("我正在努力向前爬") def run(self) print("我正在飞快向前跑") def sleep(self): print("困了，睡了，晚安，zzz")>>>tt=Turtle()>turtle()>tt.

2020-07-07 12:25:00 188

原创程序媛的进阶之路——字典与集合

创造和访问字典dict1={'a':'1',''b':'2','c':'3'}>>>print('what did c say?',dict1['c'])>what did c say?3dict1['d']='4'>>>dict4>{'a':'1','b':'2','c':'3','d':'4'}简易赋值dict2.fromkeys((1,2,3),'number'}#给每个元素赋值为Numberdict2.fromkeys((1,3)

2020-07-05 16:20:58 149

原创程序媛的进阶之路——文件

文件的基本处理文件的基本操作：读取写入定位关闭文件：切断文件与程序的联系写入磁盘，并释放文件缓冲区打开文件open()<variable>=open(<name>,<mode>)name表示磁盘文件名，mode表示打开模式打开模式：文件读取遍历文件的框架通用代码框架file =open(somefile,"r")for line in file.readlines():#处理每一行文件的内容file.close()简化代码框架fil

2020-07-03 22:09:23 196

原创程序媛进阶之路——函数调用

给不同的人物打印歌曲def happy(): print("happy,happy birthday to you")def sing(person): happy() print("happy,happy",person+"!") happy()判断三角形并计算其周长import mathdef square(x): return x*xdef distance(x1,y1,x2,y2): dist=math.sqrt(square(x1-x2)

2020-07-02 22:41:30 262

原创程序员进阶之路——程序基本结构

if语句for语句for语句执行的是有限循环，必须输入循环的次数while语句while语句是无限循环语法结构：while <condition>: <body>是布尔表达式是一条或多条语句当condition为真时循环体重复执行当条件为假时循环体中止运行***while循环总是在循环顶部被判断，即在循环体中止之前，这种结构又被称作前侧循环***## for/while中的else，break用法break跳出所有循环continue的作用是结束本次循

2020-07-02 17:59:41 277

原创程序媛的进阶之路——python语言类型

数字类型整数类型与整数概念一致无取值范围的限制浮点数类型带有小数点和小数的数字复数类型函数整数类型：int()浮点数：float()复数：complex(）需要注意的是python语言只支持拓宽范围转换如整数转换为浮点，但却是不可逆的字符串类型案例：输入数字返回该月份的缩写1、将所有名称缩写存储在字符串中month=“janfeb…”2、截取适当子串获得月份如果pos代表一个月份的第一个字母，则month[pos,pos+3]表示这个月份的缩写，即：monthabbrev

2020-07-01 18:03:24 312

原创程序媛进阶之路——python入门

输入函数input()函数从控制台获得用户输入。使用方法如下：<变量>=input(<提示性文字>)获得用户输入以字符串的形式保存在<变量>中。表达式如果val=“28C”字符长度为L,则L-1为变量的最后一个字节则val[-1]是最后一个字符“c"前两个字符组成的字符串可以用val[0:2]表示，它表示从[0:2)的区间由于我们输入的字符的最后一个字符是C是字符，之前是数字，所以通过val[0:-1]来获取除最后一个字符外的字符串分支语句定义：

2020-07-01 14:53:38 206

原创文科生的SQL初体验之联合查询与快速备份

将多个查询的结果集合并成一个结果集联合要求：结果集列数要一样对应列的类型（数据类型）一样union(消除重复行）、union all（不会消除重复行）、except（第一个结果集和第二个结果集的交集）、intersect（S1intersect s2则求得是S1集合中去掉与S2重合得部分得集合）用处：在查询结果处显示汇总--联合查询select cid from classinfo...

2020-04-26 18:27:45 271

原创文科生的SQL初体验之聚合函数与开窗函数

聚合函数聚合函数：count、avg、sum、max、mincount函数select count(*)from 资料表查询表中cid为1的有多少列select count(*)as count1 from 资料表where cid=1select count(sphone)as count1 from 资料表where cid=1此时表中sphone为n...

2020-04-24 11:54:51 404

原创文科生的SQL初体验之模糊查询

模糊查询%：0-多个任意字符，_表示一个字符[]^表示一个字符%与_写在[]中表示本身的含义select* from UserInfowhere sname like '%三%'--姓张的学生select* from UserInfowhere sname like '张%'--查询名字为2个字姓黄的学生select* from UserInfowhere sname l...

2020-04-23 09:28:00 325

原创文科生的SQL初体验之查询

另起昵称select*from UserInfo as uias 可省略起别名*代表查询所有列select ui.Username as 姓名,ui.UserPwd as 密码查询部分列并重命名Tips:从某个表中查找时，如果已经改名就必须用改过的名字筛选绝对值筛选`select top 1*from UserInfo百分比筛选select top 2...

2020-04-22 11:08:10 243

原创文科生的SQL初体验之表的撰写

基本列的设置primary key为主键，identity(种子，增量）control+E直接执行use dbtestcreate table ClassInfo1(Cid int not null primary key identity(1,1),CTitle nvarchar(10))执行后表的样式如下:Tips:default(0)表示默认值为0 ;不写null 表...

2020-04-22 10:31:33 252 1

原创文科生的SQL初体验之数据插入与修改

划定插入语句，执行，数据就会插入表格划定Select语句点击执行，就会出现该表格执行后的结果

2020-04-20 11:11:46 284 1

原创文科生的SQL初体验之脚本创建

SQL的语言原则不区分大小写，字符串使用单引号，末尾不需要加分号SQL的语言种类DDL（弟弟语言——digital definition language）:数据定义语言，用于进行各种数据库对象的创建，（创建表、可视图、定义对象）主要包括create、alter、dropDML（大妈语言——digital management language）:数据管理语言，用于对表数据的添加、修改、...

2020-04-18 21:52:03 242

原创文科生的SQL初体验——约束

数据库建立解决的问题：持久化存储，优化读写，保证数据的有效性——约束：实现数据的有效性检查主键：保证值是唯一的，非空：Null取消，唯一约束：存储的值不能重复唯一键的设置这样可以保证这一行的值没有重复；此时系统将会做出检查，如果不是唯一则会报错默认值设置对注册时间进行检查约束外键外键：对关系的有效性检查。如果存在关系，关系中的值是否合理。如某人的班级是3班，但...

2020-04-16 23:37:45 256

原创文科生的SQL初体验

文科生的SQL初体验表的存储主键的设置标识列设置为主键，它是唯一的，也可以提高我们的检索速度。标识种子：在原有基础上增加，在原式基础上+1.d第一条数值为1，第二条数值为2步骤：1.设置数据类型2.设置主键字段类型主要字段类型：int,bit,datetime,decimal,char\varchar\nvarchar中文设置由于带n的cchar,无论中英文都用连个字节...

2020-04-16 09:34:41 413

空空如也

空空如也