user_zongji-CSDN博客

原创浅谈Hive程序相关规范

Hive程序相关规范开发规范开发规范注重代码的可读性,解耦性!!!存在多层嵌套,内层嵌套表的过滤条件不要写到外层(重点),例如:--错误示范select a.* from aleft join bon a.id = b.idwhere a.no =1--正确书写(为加强可读性与代码解耦健壮性)select * from(select * from a where a.no=1) a left join bon a.id = b.id插入覆盖语句禁止写select *

2021-04-11 14:13:50 2024 2

原创 Greenplum(青梅)学习日志

Greenplum学习日志一、Greenplum概述二、Greenplum特性二、Greenplum基操1.启动数据库三、PostgreSQL基操一、Greenplum概述是一款开源的分布式数据库存储解决方案，其主要关注在数据仓库和商业智能方面。可以在虚拟化x86服务器上运行无分享（shared-nothing）的大规模并行处理（MPP）架构。Greenplum是基于PostgreSQL(类mysql)开发,二者匹配度高二、Greenplum特性支持海量数据存储和处理高性价比(相比于ha

2020-10-14 15:07:49 706

原创机器学习实战之朴素贝叶斯

机器学习实战之朴素贝叶斯一、朴素贝叶斯算法概述1.贝叶斯决策理论2.条件概率3.全概率公式4.贝叶斯推断5.朴素贝叶斯推断二.实战一、朴素贝叶斯算法概述朴素贝叶斯算法是有监督的学习算法,解决的是分类问题,如客户是否流失,是否值得投资、信用等级评定等多分类问题.该算法有点在于简单易懂,学习效率高,在某些领域的分类问题中能够与决策树、神经网络相媲美但由于该算法以自变量之间的独立(条件特征独立)性和连续变量的正态假设为前提,就会导致算法精度在某种程度上受影响.朴素贝叶斯是贝叶斯决策理论的一部分,讲述朴

2020-07-05 23:40:05 966

原创机器学习实战之决策树熵的概述

机器学习实战之决策树熵的概述一、决策树简介二、决策树的一般流程三、决策树构建的准备工作1、特征选择（1）香农熵（2）编写代码计算经验熵一、决策树简介决策树是什么？自己理解:决策树是一颗能给人们带来决策的树,它将根据提供的可能条件,构建一颗树的模型,其中条件即树的枝干,可能性越强,枝干将会长得越茂盛,反之就越秃.书中解释:决策树(decision tree)是一种基本的分类与回归方法。举个通俗易懂的例子，如下图所示的流程图就是一个决策树，长方形代表判断模块(decision block)，椭圆形成

2020-06-28 21:25:32 3213

原创机器学习实战之K-近邻算法

机器学习实战之K-近邻算法一、K-近邻算法简介二、K-1.CreateTable2.Sample一、K-近邻算法简介k邻近算法是一种通过测量与不同特征值的距离的方法进行分类的分类算法。优点：精度高，对异常值不敏感，无数据输入假定。缺点：算法的时间，空间复杂度很高，实用性不强。适用数据范围：数值型，标量型。工作原理:假设有一个样本数据集,且样本集中每个数据都存在标签(即分类)。在输入没有标签的数据后，将数据与样本进行距离计算，距离短的数据中出现频率最高的类别即可认为是该数据的标签。二、K-注:

2020-06-22 00:42:17 566

原创 SQL进阶之关联子查询练习

SQL进阶之关联子查询一、关联子查询简介二、关联子查询实操1.CreateTable2.Sample一、关联子查询简介通过关联表内部条件从而达到查询效果二、关联子查询实操注:版本使用:mysql5.1.73以下代码均可直接cv在mysql练习1.CreateTable--移动累计值和移动平均值CREATE TABLE Accounts(prc_date DATE NOT NULL , prc_amt INTEGER NOT NULL , PRIMARY KEY (prc_date

2020-06-01 14:43:51 558

原创学习笔记(01):程序员的数学：概率统计-看似相近却有本质区别

编程的基础是计算机科学，而计算机科学的基础是数学。因此，学习数学有助于巩固编程的基础，写出更健壮的程序。本门课程主要讲解程序员必备的数学知识，借以培养程序员的数学思维。学习者无需精通编程，也无需精通数学。从概率统计、线性代数、微积分、优化理论、随机过程到当前大热的机器学习，讲师幽默风趣，课件精致美观，深入浅出带你重学数学！...

2020-05-29 10:31:59 213

原创 SQL进阶之HAVING练习

SQL进阶之HAVING用法一、HAVING子句简介二、HAVING实操1.CreateTable2.Sample一、HAVING子句简介HAVING是在sql的运行完后做的一个判断常跟聚合写法后面二、HAVING实操注:版本使用:mysql5.1.73以下代码均可直接cv在mysql练习1.CreateTable/* 寻找缺失的编号 */CREATE TABLE SeqTbl(seq INTEGER PRIMARY KEY, name VARCHAR(16) NOT NULL);

2020-05-27 17:33:47 403

原创数据分析师工作流程及其注意点

数据分析师工作总结一、目的二、工作流程及其注意点1.获取需求单2.构思需求实现3.和产品沟通需求实现,以及告知需求实现所需要花费的时间4.写出完整的实现思路5.着手大干一场6.校检数据的正确性以及健壮性7.交付需求,等待产品校验8.复盘总结1.获取需求单如何功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特

2020-05-26 12:01:24 960