- 博客(13)
- 收藏
- 关注
原创 浅谈Hive程序相关规范
Hive程序相关规范开发规范开发规范注重代码的可读性,解耦性!!!存在多层嵌套,内层嵌套表的过滤条件不要写到外层(重点),例如:--错误示范select a.* from aleft join bon a.id = b.idwhere a.no =1--正确书写(为加强可读性与代码解耦健壮性)select * from(select * from a where a.no=1) a left join bon a.id = b.id插入覆盖语句禁止写select *
2021-04-11 14:13:50 1816 2
原创 Greenplum(青梅)学习日志
Greenplum学习日志一、Greenplum概述二、Greenplum特性二、Greenplum基操1.启动数据库三、PostgreSQL基操一、Greenplum概述是一款开源的分布式数据库存储解决方案,其主要关注在数据仓库和商业智能方面。可以在虚拟化x86服务器上运行无分享(shared-nothing)的大规模并行处理(MPP)架构。Greenplum是基于PostgreSQL(类mysql)开发,二者匹配度高二、Greenplum特性支持海量数据存储和处理高性价比(相比于ha
2020-10-14 15:07:49 604
原创 机器学习实战之朴素贝叶斯
机器学习实战之朴素贝叶斯一、朴素贝叶斯算法概述1.贝叶斯决策理论2.条件概率3.全概率公式4.贝叶斯推断5.朴素贝叶斯推断二.实战一、朴素贝叶斯算法概述朴素贝叶斯算法是有监督的学习算法,解决的是分类问题,如客户是否流失,是否值得投资、信用等级评定等多分类问题.该算法有点在于简单易懂,学习效率高,在某些领域的分类问题中能够与决策树、神经网络相媲美但由于该算法以自变量之间的独立(条件特征独立)性和连续变量的正态假设为前提,就会导致算法精度在某种程度上受影响.朴素贝叶斯是贝叶斯决策理论的一部分,讲述朴
2020-07-05 23:40:05 835
原创 机器学习实战之决策树熵的概述
机器学习实战之决策树熵的概述一、决策树简介二、决策树的一般流程三、决策树构建的准备工作1、特征选择(1)香农熵(2)编写代码计算经验熵一、决策树简介决策树是什么?自己理解:决策树是一颗能给人们带来决策的树,它将根据提供的可能条件,构建一颗树的模型,其中条件即树的枝干,可能性越强,枝干将会长得越茂盛,反之就越秃.书中解释:决策树(decision tree)是一种基本的分类与回归方法。举个通俗易懂的例子,如下图所示的流程图就是一个决策树,长方形代表判断模块(decision block),椭圆形成
2020-06-28 21:25:32 2999
原创 机器学习实战之K-近邻算法
机器学习实战之K-近邻算法一、K-近邻算法简介二、K-1.CreateTable2.Sample一、K-近邻算法简介k邻近算法是一种通过测量与不同特征值的距离的方法进行分类的分类算法。优点:精度高,对异常值不敏感,无数据输入假定。缺点:算法的时间,空间复杂度很高,实用性不强。适用数据范围:数值型,标量型。工作原理:假设有一个样本数据集,且样本集中每个数据都存在标签(即分类)。在输入没有标签的数据后,将数据与样本进行距离计算,距离短的数据中出现频率最高的类别即可认为是该数据的标签。二、K-注:
2020-06-22 00:42:17 448
原创 SQL进阶之关联子查询练习
SQL进阶之关联子查询一、关联子查询简介二、关联子查询实操1.CreateTable2.Sample一、关联子查询简介通过关联表内部条件从而达到查询效果二、关联子查询实操注:版本使用:mysql5.1.73以下代码均可直接cv在mysql练习1.CreateTable--移动累计值和移动平均值CREATE TABLE Accounts(prc_date DATE NOT NULL , prc_amt INTEGER NOT NULL , PRIMARY KEY (prc_date
2020-06-01 14:43:51 488
原创 学习笔记(01):程序员的数学:概率统计-看似相近却有本质区别
编程的基础是计算机科学,而计算机科学的基础是数学。因此,学习数学有助于巩固编程的基础,写出更健壮的程序。本门课程主要讲解程序员必备的数学知识,借以培养程序员的数学思维。学习者无需精通编程,也无需精通数学。从概率统计、线性代数、微积分、优化理论、随机过程到当前大热的机器学习,讲师幽默风趣,课件精致美观,深入浅出带你重学数学!...
2020-05-29 10:31:59 164
原创 SQL进阶之HAVING练习
SQL进阶之HAVING用法一、HAVING子句简介二、HAVING实操1.CreateTable2.Sample一、HAVING子句简介HAVING是在sql的运行完后做的一个判断常跟聚合写法后面二、HAVING实操注:版本使用:mysql5.1.73以下代码均可直接cv在mysql练习1.CreateTable/* 寻找缺失的编号 */CREATE TABLE SeqTbl(seq INTEGER PRIMARY KEY, name VARCHAR(16) NOT NULL);
2020-05-27 17:33:47 328
原创 数据分析师工作流程及其注意点
数据分析师工作总结一、目的二、工作流程及其注意点1.获取需求单2.构思需求实现3.和产品沟通需求实现,以及告知需求实现所需要花费的时间4.写出完整的实现思路5.着手大干一场6.校检数据的正确性以及健壮性7.交付需求,等待产品校验8.复盘总结1.获取需求单如何功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特
2020-05-26 12:01:24 826
原创 SQL进阶之CASE表达式练习
1.case表达式简单了解分为简单case表达式和搜索case表达式-- 简单case表达式case sex when '1' then '男' when '2' then '女'else '其他' end--搜索case表达式case when sex = '1' then '男' when sex = '2' then '女'else '其他' end注:使用case表达式需要注意条件的排他性示例:-- 例如,这样写的话,结果里不会出现"第二"case when col_
2020-05-18 17:55:07 530
原创 SQL进阶及工作中常用SQL
1.工作中常用sql排行①group by(用来聚合也时常用来去重注意用groupby select 后要跟聚合字段)②where(SQL计算之前进行过滤,对性能是极大的提高,代码测试阶段where条件下尽量跟分区)③having(SQL计算之后进行过滤,它的使用会极大提升的代码的简洁性,同样它的功能十分强大)④时间函数(时间与我们息息相关时间函数同样也是)⑤nvl函数(去空变0)⑥union以及union all(像双面胶一样只要数据结构一样就可以直接拼接 union去重拼接,union al
2020-05-09 21:09:29 1347 1
原创 机器学习_相亲数据决策树实战
需求:根据训练集预测是否要见相亲对象机器学习处理问题流程:1.准备数据,导入数据集2.数据探索性分析,EDA分析3.特征工程(数据处理、特征的预处理)4.数据切分:训练集+测试集,训练集占比例高的5.模型训练(训练集+机器学习算法—决策树算法)6.利用测试数据进行预测—通过测试数据X灌入算法中得到一个预测值Y17.|Y-Y1|误差,模型训练过程中使得模型的误差变小8.模型评价:准...
2020-05-03 20:16:59 1416 2
原创 HiveSql优化
Hive SQL的各种优化方法基本 都和数据倾斜密切相关。 Hive的优化分为join相关的优化和join无关的优化,从项目的实际来说,join相关的优化占了Hive优化的大部分内容,而join相关的优化又分为mapjoin可以解决的join优化和mapjoin无法解决的join优化。1、Hive优化(这是重点)在实际的Hive SQL开发的过程中,Hive SQL 性能的问题上实际上只...
2020-05-02 18:04:36 1485
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人