拂柳扬玉-CSDN博客

原创我的数据挖掘之旅-统计学基础（最终版2.0）

序言：很早就开始关注居士老师的公众号了，但是自己也懒，很多文章都没有看完，最近居士老师组织人一起系统学习数据挖掘，希望这次可以和大家共同进步。甜点：统计学是数据分析的基石。学了统计学，你会发现很多时候的分析并不靠谱。比如很多人都喜欢用平均数去分析一个事物的结果，但是这往往是粗糙的，不准确的。如果学了统计学，那么我们就能以更多更科学的角度看待数据。所以我们这周的计划就是统计学相关知识。大部...

2019-08-03 15:18:56 874 3

原创日常图案学习-六彩花

import turtlet= turtle.Turtle()t.speed(0)c=[‘red’,‘green’,‘blue’,‘purple’,‘cyan’,‘yellow’]for x in range(120):t.color(c[x%6])t.circle(x,90)t.left(90)t.circle(x,90)t.left(30)...

2019-07-20 11:16:42 174

原创日常图案学习-五角星

import turtlet=turtle.Turtle()t.speed(0)t.color(“red”)t.penup()t.goto(-80,-100)t.pendown()t.begin_fill()t.fd(300)t.lt(90)t.fd(150)t.lt(90)t.fd(300)t.lt(90)t.fd(150)t.lt(90)t.end_fill(...

2019-07-20 11:15:57 201

原创我的数据挖掘之旅-统计学基础

序言：很早就开始关注居士老师的公众号了，但是自己也懒，很多文章都没有看完，最近居士老师组织人一起系统学习数据挖掘，希望这次可以和大家共同进步。甜点：统计学是数据分析的基石。学了统计学，你会发现很多时候的分析并不靠谱。比如很多人都喜欢用平均数去分析一个事物的结果，但是这往往是粗糙的，不准确的。如果学了统计学，那么我们就能以更多更科学的角度看待数据。所以我们这周的计划就是统计学相关知识。大部分...

2019-07-19 18:13:46 866

原创 Hive面试必备之级联求与思想解析

有如下访客访问次数统计表 t_access_times需要输出报表：t_access_times_accumulate原始数据：A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2015-02,6B,2015-02,10B,2015-02,5解析：#创建表...

2019-04-06 13:19:25 209

原创 04、深入浅出索引（上）

1.索引的作用：提高数据查询效率，就像书的目录一样。2.常见索引模型：哈希表、有序数组、搜索树3.哈希表：键 - 值(key - value)。4.哈希思路：把值放在数组里，用一个哈希函数把key换算成一个确定的位置，然后把value放在数组的这个位置5.哈希冲突的处理办法：链表6.哈希表适用场景：只有等值查询的场景7.有序数组：按顺序存储。查询用二分法就可以快速查询，时间复杂度是：O...

2019-04-05 17:56:28 95

原创 03、事务隔离：为什么你改了我还看不见（转）

1、事务的特性：原子性、一致性、隔离性、持久性2、多事务同时执行的时候，可能会出现的问题：脏读、不可重复读、幻读3、事务隔离级别：读未提交、读提交、可重复读、串行化4、不同事务隔离级别的区别：读未提交：一个事务还未提交，它所做的变更就可以被别的事务看到读提交：一个事务提交之后，它所做的变更才可以被别的事务看到可重复读：一个事务执行过程中看到的数据是一致的。未提交的更改对其他事务是不可见...

2019-04-05 17:20:49 204 1

原创 2、一条SQL更新语句是如何执行的

下面是这个表的创建语句，这个表有一个主键ID和一个整型字段c：mysql> create table T(ID int primary key, c int);如果要将ID=2这一行的值加1，SQL语句就会这么写：mysql> update T set c=c+1 where ID=2;资料来源于有需要添加公众号（小禅秀）留言...

2019-04-05 16:47:14 83

原创 1、一条SQL查询语句是如何执行的

1，连接连接管理模块，接收请求；连接进程和用户模块，通过，连接线程和客户端对接2，查询查询缓存 Query Cache分析器，内建解析树，对其语法检查，先from，再on，再join，再where…；检查权限，生成新的解析树，语义检查（没有字段k在这里）等优化器，将前面解析树转换成执行计划，并进行评估最优执行器，获取锁，打开表，通过meta数据，获取数据3，返回结果返回给连接进程...

2019-04-05 15:40:20 117

原创小白简述Spark Core SQL Streaming 的区别

Spark Core ：Spark的基础，底层的最小数据单位是：RDD ; 主要是处理一些离线(可以通过结合Spark Streaming来处理实时的数据流)、非格式化数据。Spark SQL：Spark SQL 底层的数据处理单位是：DataFrame(新版本为DataSet<Row>) ; 主要是通过执行标准 SQL 来处理一些离线(可以通过结合Spark Streamin...

2019-04-05 15:01:23 321

原创 Gitblit的安装和使用

***Gitblit的安装和使用Gitblit 是一个纯 Java 库用来管理、查看和处理 Git 资料库。相当于 Git 的 Java 管理工具，或是git的管家。1.配置Jdk环境：由于Gitblit是纯java的应用，所以需要先安装JDK环境2.下载压缩包：从Gitblit官网下载最新的的压缩包3.解压缩文件：解压到/opt目录下：tar -zxvf ./gitblit -C ...

2019-03-26 01:50:52 1109

原创 Hive sql语句必练50题之41-50

41、查询不同课程成绩相同的学生的学生编号、课程编号、学生成绩:select distinct a.*from score a,score bwhere a.c_id != b.c_id and a.s_score = b.s_score and a.s_id=b.s_id;s_id c_id s_score03 01 8003 02 8003 03 8042、查询每门课程成绩最好...

2019-03-26 00:58:31 938

原创 Hive sql语句必练50题之31-40

31、查询1990年出生的学生名单:select *from studentwhereyear(s_birth)=‘1990’;s_id s_name s_birth s_sex01 赵雷 1990-01-01 男02 钱电 1990-12-21 男03 孙风 1990-05-20 男04 李云 1990-08-06 男32、查询每门课程的平均成绩，结果按平均成绩降序排列，平均...

2019-03-26 00:57:56 424

原创 Hive sql语句必练50题之21-30

21、查询不同老师所教不同课程平均分从高到低显示:select cs.t_id,sc.c_id,round(avg(sc.s_score),2) avgScorefrom score scjoin course cs on sc.c_id=cs.c_idgroup by cs.t_id,sc.c_idorder by cs.t_id,avgScore desc;t_id c_id a...

2019-03-26 00:57:08 1143 2

原创 Hive sql语句必练50题之11-20

11、查询没有学全所有课程的同学的信息:select distinct stu.*from student stujoin course aleft join score b on b.s_id = stu.s_id and b.c_id = a.c_idwhere b.s_score is null;s_id s_name s_birth s_sex05 周梅 1991-12-0...

2019-03-26 00:56:03 487

原创 Hive sql语句必练50题之1-10

//是否启用local模式SET hive.exec.mode.local.auto=true; //默认false1、查询"01"课程比"02"课程成绩高的学生的信息及课程分数:select stu.*,a.s_score 01_score,b.s_score 02_scorefrom student stujoin score a on stu.s_id = a.s_id and ...

2019-03-26 00:55:09 975

load data local inpath ‘/export/data/hivedatas/student.csv’ into table student;load data local inpath ‘/export/data/hivedatas/course.csv’ into table course;load data local inpath ‘/export/data/hived...

2019-03-26 00:52:49 250

原创 Hive sql语句必练50题之生成数据

vi /export/data/hivedatas/student.csv01 赵雷 1990-01-01 男02 钱电 1990-12-21 男03 孙风 1990-05-20 男04 李云 1990-08-06 男05 周梅 1991-12-01 女06 吴兰 1992-03-01 女07 郑竹 1989-07-01 女08 王菊 1990-01-20 女vi /export...

2019-03-26 00:51:54 407

原创 Hive sql语句必练50题之建表

create table student(s_id string,s_name string,s_birth string,s_sex string)row format delimitedfields terminated by ‘\t’;create table course(c_id string,c_name string,t_id string)row format...

2019-03-26 00:49:38 433

原创 OLAP与OLTP

OLTP1、联机事物处理系统（Online Transaction Processing），表示事务性很高的系统2、OLTP系统最容易出现瓶颈的地方就是CPU与磁盘子系统3、OLTP比较常用的设计与优化方式为Cache技术与B-tree索引技术，Cache决定了很多语句不需要从磁盘子系统获得数据4、OLTP 系统是一个数据块变化非常频繁，SQL 语句提交非常频繁的系统OLAP1、联机分...

2019-03-21 16:59:05 97

原创第九天：子查询

子查询:sub query, 查询是在某个查询结果之上进行的.(一条select语句内部包含了另外一条select语句).子查询分类子查询有两种分类方式: 按位置分类; 按结果分类按位置分类: 子查询(select语句)在外部查询(select语句)中出现的位置From子查询: 子查询跟在from之后Where子查询: 子查询出现where条件中Exists子查询: 子查询出现在ex...

2019-03-17 00:08:13 110

原创第八天：联合查询

联合查询: 将多次查询(多条select语句), 在记录上进行拼接(字段不会增加)基本语法多条select语句构成: 每一条select语句获取的字段数必须严格一致(但是字段类型无关)Select 语句1Union [union选项]Select语句2…Union选项: 与select选项一样有两个All: 保留所有(不管重复)Distinct: 去重(整个重复): 默认的un...

2019-03-16 21:27:33 543

原创第七天：外键

外键:foreign key, 外面的键(键不在自己表中):如果一张表中有一个字段(非主键)指向另外一张表的主键,那么将该字段称之为外键.增加外键外键可以在创建表的时候或者创建表之后增加(但是要考虑数据的问题).一张表可以有多个外键.创建表的时候增加外键: 在所有的表字段之后,使用foreign key(外键字段) references 外部表(主键字段)在新增表之后增加外键: 修...

2019-03-16 20:50:22 151

原创第六天：连接查询

连接查询:将多张表(可以大于2张)进行记录的连接(按照某个指定的条件进行数据拼接): 最终结果是: 记录数有可能变化, 字段数一定会增加(至少两张表的合并)连接查询的意义:在用户查看数据的时候,需要显示的数据来自多张表.连接查询: join, 使用方式: 左表 join 右表左表: 在join关键字左边的表右表: 在join关键字右边的表连接查询分类SQL中将连接查询分成四类: 内...

2019-03-16 20:32:33 267

原创第五天：数据高级操作之查询数据

基本语法：select 字段列表 / * from 表名 [where 条件]；完整语法：select [select 选项] 字段列表 [字段别名] / * from 数据源 [where 条件][group by 子句] [having 子句] [order by 子句] [limit 子句]select 选项select 选项：select对查出来的结果的处理方式all:默认，...

2019-03-16 09:05:09 358

原创第四天：数据高级操作之更新删除数据

基本语法：Update 表名 set 字段 = 值[where 条件]；高级新增语法：Update 表名 set 字段 = 值[where条件][limit 更新数量]删除数据：与更新类似：可以通过limit 限制数量delete from 表名[where 条件] [limit 数量]删除：如果表中存在主键自增长，那么当删除之后，自增长不会还原思路: 数据的删除是不会改变表结...

2019-03-16 09:02:47 91

原创 Flume

日志在tomcat服务器上 /data/access.log自己开发采集工具涉及读数据、缓存、写数据flume:单个文件不超过两G配置：1、文件大小2、时间3、event数量数据不丢失：1、备用channel2、维护偏移量3、事物分片：max（min(块大小与long最大值)，1）分片：为了避免一行数据被切成两片，默认多读一行maptask ： reducetask数...

2019-03-16 00:52:08 124

原创第三天：数据高级操作之新增数据

数据操作：增删改查一、新增数据：基本语法insert into 表名[(字段列表)] values （值列表）;主键冲突：当主键存在冲突的时候，可以选择性的进行处理：更新与替换1、更新Insert into 表名[(字段列表:包含主键)] values(值列表) on duplicate key update 字段 = 新值;2、替换Replace into 表名 [(字段列表:...

2019-03-15 21:24:09 107

原创事务的四大特性,以及隔离级别

数据库必须具备的四个特性1：原子性：事务包含的所有操作要么全部成功，要么全部失败回滚;成功必须要完全应用到数据库，失败则不能对数据库产生影响；2：一致性：事务执行前和执行后必须处于一致性状态，例：用户A和用户B的前加起来一共是5000; 无论AB用户之间是如何相互转换的，事务结束后两个用户的钱加起来还是5000,这就是事务的一致性。3：隔离性：当多个用户并发访问数据库时，数据库为每一个用户...

2019-03-15 12:27:53 78

原创 MySQL范式

范式背景：1、是为了解决数据冗余2、是为了数据的优化与存储3、保存数据之后，可以通过关系得到的数据，不再存储范式概念：1、是一种分层结构的规范，分为6层2、每一层都比上一层更严格3、若要满足下一层范式，前提是满足上一层4、范式在数据库中具有指导意义，但是不强制规范5、数据库不仅要考虑空间问题，还要考虑效率问题，一般用前第三层6、六层范式: 1NF,2NF,3NF…6NF, 1N...

2019-03-15 02:34:26 1583

原创 jdbc面试题

JDBC常见面试题JDBC操作数据库的步骤？注册数据库驱动。建立数据库连接。创建一个Statement。执行SQL语句。处理结果集。关闭数据库连接代码如下：Connection connection = null;Statement statement = null;ResultSet resultSet = null;try { /*...

2019-03-14 14:08:15 292

原创 zookeeper笔记

Zookeeper是一个分布式协调服务；就是为用户的分布式应用程序提供协调服务 1、zookeeper是为别的分布式程序服务的 2、Zookeeper本身就是一个分布式程序（只要有半数以上节点存活，zk就能正常服务） 3、Zookeeper所提供的服务涵盖：主从协调、服务器节点动态上下线、统一配置管理、分布式共享锁、统一名称服务…… 4、虽然说可以提供各种服务，但是zookeeper在底层...

2018-09-01 11:13:45 127

柳柳