- 博客(9)
- 资源 (3)
- 收藏
- 关注
原创 GBDT梯度提升决策树-理清每个细节-附Python代码
2019-01-14修改部分文字内容,增强理解 2019-01-17修改章节4.提升树算法与负梯度拟合,章节5.梯度提升回归树算法,更改公式、加注释使其更加容易理解 增加章节2.GBDT优缺点,6.梯度提升分类树算法1.GBDT概念以决策树为基学习器的集成学习算法具有预测精度高的优势,树的集成算法主要有随机森林和GBDT。随机森林具有很好的抗过...
2018-12-25 20:25:45 8605
原创 关系型数据库与SQL简介
一、SQL简介1.是用于组织、管理与检索由计算机数据库所存储数据的工具,是用于与数据库进行交互的计算机语言;是集数据操作、数据定义、数据控制功能于一体的关系数据语言2.SQL是非结构化语言,非过程化语言;所有SQL语句接受集合作为输入,返回集合作为输出,使用的是查询优化器3.oracle支持多用户、大事物量的事务处理;数据安全性和完整性控制;支持分布式数据处理;可移植性4.数据库服...
2018-12-26 18:49:13 403
原创 Python基本语法概述
1.数字与表达式#变量名可以包括字母/数字/下划线,但不能以数字开头// 整除运算符\ 转义字符串% 取模(对浮点数也适用)** 幂次运算,或者使用pow(x,y)= 赋值符号int(x) 浮点数转换成整数(向下取整)float(x) 将字符串或数字转换成浮点数#复数求平方根(Python中没有单独的虚数类型-即实部等于0的复数)import cmathcma...
2018-12-23 16:21:54 139
原创 决策树算法-理清每个细节-附R+Python代码
2018-12-20更新,新增内容2019-01-14更新,对信息熵-信息增益章节中部分文字进行修订一.决策树概念在计算机科学中,树是一种重要数据结构,比如二叉查找树、红黑树等,通过引入“树”数据结构,可以很快缩小数据规模,实现高效查找。一般情况面对的样本通常具有很多特征,对事务的判断不能只从一个角度出发,决策树的思想是先从一个特征入手,通过这次分类使问题规模缩小,同时分类后的子集相比...
2018-12-19 20:53:20 5303 2
原创 SQL ON Hadoop-Hive(六)-字符串函数+行列转换
一.hive常用字符串函数1.字符串反转函数reverse(string A) --返回值类型string select reverse('gian') from iteblog; --'naig'2.带分隔符字符串连接函数concat_ws(string sep,string a,string b,...) --返回值类型stringselect concat_ws('.',...
2018-12-01 22:42:01 1019
原创 电话号码的正则表达式
1.正则匹配中国电信手机号码段:电信分别有:133,153,180,181,189,177总共六个号段。第一位为数字1,第二位分别是3,5,7,8,第三位分别是0,1,3,7,9所以前三位的正则如下:1[3578][01379]\d{8}其中1匹配本身,[3578]可以匹配方括号中的任意一位,[01379]可以匹配方括号中的任意一位,\d{8}可以匹配8位数字,每一位数字可以是0到9的...
2018-12-01 21:32:22 2153
原创 SQL ON Hadoop-Hive(五)-列自增+元数据表
一.hive实现列自增1.用row_number()函数生成代理键insert into tbl_dim select row_number() over (order by tbl_stg.id)+t2.sk_max,tbl_stg.* from tbl_stg cross join (select coalesce(max(sk),0) sk_max from tbl_dim) t...
2018-12-01 21:26:06 334
原创 SQL ON Hadoop-Hive(四)-数据操作
2019.04.25更新,新增数据类型转换部分一.装载数据--可自动创建分区load data [local] inpath 'file_path' [overwrite] into table table_name [partition(partcol1=val1,parcol2=val2...)]使用local关键字,那么'file_path'应该为本地文件系统(hive客户端...
2018-12-01 21:00:14 150
原创 SQL ON Hadoop-Hive(三)-分区表
分区表是将大的表文件划分成多个小文件以利于查询,但是如果数据分布不均也会影响查询效率(桶表可以对数据进行哈希取模,目的是让数据能够均匀分布在表的各个数据文件中,是对分区表的补充)create table info_student(student_id string,name string,age int,sex string,father_name string,mother_n...
2018-12-01 20:32:11 310
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人