自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (3)
  • 收藏
  • 关注

原创 GBDT梯度提升决策树-理清每个细节-附Python代码

2019-01-14修改部分文字内容,增强理解 2019-01-17修改章节4.提升树算法与负梯度拟合,章节5.梯度提升回归树算法,更改公式、加注释使其更加容易理解                    增加章节2.GBDT优缺点,6.梯度提升分类树算法1.GBDT概念以决策树为基学习器的集成学习算法具有预测精度高的优势,树的集成算法主要有随机森林和GBDT。随机森林具有很好的抗过...

2018-12-25 20:25:45 8605

原创 关系型数据库与SQL简介

一、SQL简介1.是用于组织、管理与检索由计算机数据库所存储数据的工具,是用于与数据库进行交互的计算机语言;是集数据操作、数据定义、数据控制功能于一体的关系数据语言2.SQL是非结构化语言,非过程化语言;所有SQL语句接受集合作为输入,返回集合作为输出,使用的是查询优化器3.oracle支持多用户、大事物量的事务处理;数据安全性和完整性控制;支持分布式数据处理;可移植性4.数据库服...

2018-12-26 18:49:13 403

原创 Python基本语法概述

1.数字与表达式#变量名可以包括字母/数字/下划线,但不能以数字开头// 整除运算符\ 转义字符串% 取模(对浮点数也适用)** 幂次运算,或者使用pow(x,y)= 赋值符号int(x) 浮点数转换成整数(向下取整)float(x) 将字符串或数字转换成浮点数#复数求平方根(Python中没有单独的虚数类型-即实部等于0的复数)import cmathcma...

2018-12-23 16:21:54 139

原创 决策树算法-理清每个细节-附R+Python代码

2018-12-20更新,新增内容2019-01-14更新,对信息熵-信息增益章节中部分文字进行修订一.决策树概念在计算机科学中,树是一种重要数据结构,比如二叉查找树、红黑树等,通过引入“树”数据结构,可以很快缩小数据规模,实现高效查找。一般情况面对的样本通常具有很多特征,对事务的判断不能只从一个角度出发,决策树的思想是先从一个特征入手,通过这次分类使问题规模缩小,同时分类后的子集相比...

2018-12-19 20:53:20 5303 2

原创 SQL ON Hadoop-Hive(六)-字符串函数+行列转换

一.hive常用字符串函数1.字符串反转函数reverse(string A) --返回值类型string select reverse('gian') from iteblog; --'naig'2.带分隔符字符串连接函数concat_ws(string sep,string a,string b,...) --返回值类型stringselect concat_ws('.',...

2018-12-01 22:42:01 1019

原创 电话号码的正则表达式

1.正则匹配中国电信手机号码段:电信分别有:133,153,180,181,189,177总共六个号段。第一位为数字1,第二位分别是3,5,7,8,第三位分别是0,1,3,7,9所以前三位的正则如下:1[3578][01379]\d{8}其中1匹配本身,[3578]可以匹配方括号中的任意一位,[01379]可以匹配方括号中的任意一位,\d{8}可以匹配8位数字,每一位数字可以是0到9的...

2018-12-01 21:32:22 2153

原创 SQL ON Hadoop-Hive(五)-列自增+元数据表

一.hive实现列自增1.用row_number()函数生成代理键insert into tbl_dim select row_number() over (order by tbl_stg.id)+t2.sk_max,tbl_stg.* from tbl_stg cross join (select coalesce(max(sk),0) sk_max from tbl_dim) t...

2018-12-01 21:26:06 334

原创 SQL ON Hadoop-Hive(四)-数据操作

2019.04.25更新,新增数据类型转换部分一.装载数据--可自动创建分区load data [local] inpath 'file_path' [overwrite] into table table_name [partition(partcol1=val1,parcol2=val2...)]使用local关键字,那么'file_path'应该为本地文件系统(hive客户端...

2018-12-01 21:00:14 150

原创 SQL ON Hadoop-Hive(三)-分区表

分区表是将大的表文件划分成多个小文件以利于查询,但是如果数据分布不均也会影响查询效率(桶表可以对数据进行哈希取模,目的是让数据能够均匀分布在表的各个数据文件中,是对分区表的补充)create table info_student(student_id string,name string,age int,sex string,father_name string,mother_n...

2018-12-01 20:32:11 310

JS混淆解密并美化过的getkey

配合我的博客文章使用【Python与R协同完成【中国裁判文书网】文书内容爬取】

2018-07-14

getkey JS文件

配合我的博客文章使用【Python与R协同完成【中国裁判文书网】文书内容爬取】

2018-07-14

base64 JS文件

配合我的博客文章使用【Python与R协同完成【中国裁判文书网】文书内容爬取】

2018-07-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除