2018年12月_风风雨雨中寻觅

12月 11月 10月 09月 08月 07月

原创 GBDT梯度提升决策树-理清每个细节-附Python代码

2019-01-14修改部分文字内容，增强理解 2019-01-17修改章节4.提升树算法与负梯度拟合，章节5.梯度提升回归树算法，更改公式、加注释使其更加容易理解增加章节2.GBDT优缺点，6.梯度提升分类树算法1.GBDT概念以决策树为基学习器的集成学习算法具有预测精度高的优势，树的集成算法主要有随机森林和GBDT。随机森林具有很好的抗过...

2018-12-25 20:25:45 8605

原创关系型数据库与SQL简介

一、SQL简介1.是用于组织、管理与检索由计算机数据库所存储数据的工具，是用于与数据库进行交互的计算机语言；是集数据操作、数据定义、数据控制功能于一体的关系数据语言2.SQL是非结构化语言，非过程化语言；所有SQL语句接受集合作为输入，返回集合作为输出，使用的是查询优化器3.oracle支持多用户、大事物量的事务处理；数据安全性和完整性控制；支持分布式数据处理；可移植性4.数据库服...

2018-12-26 18:49:13 403

原创 Python基本语法概述

1.数字与表达式#变量名可以包括字母/数字/下划线,但不能以数字开头// 整除运算符\ 转义字符串% 取模(对浮点数也适用)** 幂次运算,或者使用pow(x,y)= 赋值符号int(x) 浮点数转换成整数(向下取整)float(x) 将字符串或数字转换成浮点数#复数求平方根(Python中没有单独的虚数类型-即实部等于0的复数)import cmathcma...

2018-12-23 16:21:54 139

原创决策树算法-理清每个细节-附R+Python代码

2018-12-20更新，新增内容2019-01-14更新，对信息熵-信息增益章节中部分文字进行修订一.决策树概念在计算机科学中，树是一种重要数据结构，比如二叉查找树、红黑树等，通过引入“树”数据结构，可以很快缩小数据规模，实现高效查找。一般情况面对的样本通常具有很多特征，对事务的判断不能只从一个角度出发，决策树的思想是先从一个特征入手，通过这次分类使问题规模缩小，同时分类后的子集相比...

2018-12-19 20:53:20 5303 2

原创 SQL ON Hadoop-Hive（六）-字符串函数+行列转换

一.hive常用字符串函数1.字符串反转函数reverse(string A) --返回值类型string select reverse('gian') from iteblog; --'naig'2.带分隔符字符串连接函数concat_ws(string sep,string a,string b,...) --返回值类型stringselect concat_ws('.',...

2018-12-01 22:42:01 1019

原创电话号码的正则表达式

1.正则匹配中国电信手机号码段:电信分别有:133,153,180,181,189,177总共六个号段。第一位为数字1，第二位分别是3,5,7,8，第三位分别是0,1,3,7,9所以前三位的正则如下：1[3578][01379]\d{8}其中1匹配本身,[3578]可以匹配方括号中的任意一位,[01379]可以匹配方括号中的任意一位,\d{8}可以匹配8位数字,每一位数字可以是0到9的...

2018-12-01 21:32:22 2153

原创 SQL ON Hadoop-Hive（五）-列自增+元数据表

一.hive实现列自增1.用row_number()函数生成代理键insert into tbl_dim select row_number() over (order by tbl_stg.id)+t2.sk_max,tbl_stg.* from tbl_stg cross join (select coalesce(max(sk),0) sk_max from tbl_dim) t...

2018-12-01 21:26:06 334

原创 SQL ON Hadoop-Hive（四）-数据操作

2019.04.25更新，新增数据类型转换部分一.装载数据--可自动创建分区load data [local] inpath 'file_path' [overwrite] into table table_name [partition(partcol1=val1,parcol2=val2...)]使用local关键字,那么'file_path'应该为本地文件系统(hive客户端...

2018-12-01 21:00:14 150

原创 SQL ON Hadoop-Hive（三）-分区表

分区表是将大的表文件划分成多个小文件以利于查询，但是如果数据分布不均也会影响查询效率(桶表可以对数据进行哈希取模，目的是让数据能够均匀分布在表的各个数据文件中，是对分区表的补充)create table info_student(student_id string,name string,age int,sex string,father_name string,mother_n...

2018-12-01 20:32:11 310

JS混淆解密并美化过的getkey

配合我的博客文章使用【Python与R协同完成【中国裁判文书网】文书内容爬取】

2018-07-14

getkey JS文件

配合我的博客文章使用【Python与R协同完成【中国裁判文书网】文书内容爬取】

2018-07-14

base64 JS文件

配合我的博客文章使用【Python与R协同完成【中国裁判文书网】文书内容爬取】

2018-07-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人