自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 资源 (1)
  • 收藏
  • 关注

原创 我的数据挖掘之旅-统计学基础(最终版2.0)

序言:很早就开始关注居士老师的公众号了,但是自己也懒,很多文章都没有看完,最近居士老师组织人一起系统学习数据挖掘,希望这次可以和大家共同进步。甜点:统计学是数据分析的基石。学了统计学,你会发现很多时候的分析并不靠谱。比如很多人都喜欢用平均数去分析一个事物的结果,但是这往往是粗糙的,不准确的。如果学了统计学,那么我们就能以更多更科学的角度看待数据。所以我们这周的计划就是统计学相关知识。大部...

2019-08-03 15:18:56 874 3

原创 日常图案学习-六彩花

import turtlet= turtle.Turtle()t.speed(0)c=[‘red’,‘green’,‘blue’,‘purple’,‘cyan’,‘yellow’]for x in range(120):t.color(c[x%6])t.circle(x,90)t.left(90)t.circle(x,90)t.left(30)...

2019-07-20 11:16:42 174

原创 日常图案学习-五角星

import turtlet=turtle.Turtle()t.speed(0)t.color(“red”)t.penup()t.goto(-80,-100)t.pendown()t.begin_fill()t.fd(300)t.lt(90)t.fd(150)t.lt(90)t.fd(300)t.lt(90)t.fd(150)t.lt(90)t.end_fill(...

2019-07-20 11:15:57 201

原创 我的数据挖掘之旅-统计学基础

序言:很早就开始关注居士老师的公众号了,但是自己也懒,很多文章都没有看完,最近居士老师组织人一起系统学习数据挖掘,希望这次可以和大家共同进步。甜点:统计学是数据分析的基石。学了统计学,你会发现很多时候的分析并不靠谱。比如很多人都喜欢用平均数去分析一个事物的结果,但是这往往是粗糙的,不准确的。如果学了统计学,那么我们就能以更多更科学的角度看待数据。所以我们这周的计划就是统计学相关知识。大部分...

2019-07-19 18:13:46 866

原创 Hive面试必备之级联求与思想解析

有如下访客访问次数统计表 t_access_times需要输出报表:t_access_times_accumulate原始数据:A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2015-02,6B,2015-02,10B,2015-02,5解析:#创建表...

2019-04-06 13:19:25 209

原创 04、深入浅出索引(上)

1.索引的作用:提高数据查询效率,就像书的目录一样。2.常见索引模型:哈希表、有序数组、搜索树3.哈希表:键 - 值(key - value)。4.哈希思路:把值放在数组里,用一个哈希函数把key换算成一个确定的位置,然后把value放在数组的这个位置5.哈希冲突的处理办法:链表6.哈希表适用场景:只有等值查询的场景7.有序数组:按顺序存储。查询用二分法就可以快速查询,时间复杂度是:O...

2019-04-05 17:56:28 95

原创 03、事务隔离:为什么你改了我还看不见(转)

1、事务的特性:原子性、一致性、隔离性、持久性2、多事务同时执行的时候,可能会出现的问题:脏读、不可重复读、幻读3、事务隔离级别:读未提交、读提交、可重复读、串行化4、不同事务隔离级别的区别:读未提交:一个事务还未提交,它所做的变更就可以被别的事务看到读提交:一个事务提交之后,它所做的变更才可以被别的事务看到可重复读:一个事务执行过程中看到的数据是一致的。未提交的更改对其他事务是不可见...

2019-04-05 17:20:49 204 1

原创 2、一条SQL更新语句是如何执行的

下面是这个表的创建语句,这个表有一个主键ID和一个整型字段c:mysql> create table T(ID int primary key, c int);如果要将ID=2这一行的值加1,SQL语句就会这么写:mysql> update T set c=c+1 where ID=2;资料来源于有需要添加公众号(小禅秀)留言...

2019-04-05 16:47:14 83

原创 1、一条SQL查询语句是如何执行的

1,连接连接管理模块,接收请求;连接进程和用户模块,通过,连接线程和客户端对接2,查询查询缓存 Query Cache分析器,内建解析树,对其语法检查,先from,再on,再join,再where…;检查权限,生成新的解析树,语义检查(没有字段k在这里)等优化器,将前面解析树转换成执行计划,并进行评估最优执行器,获取锁,打开表,通过meta数据,获取数据3,返回结果返回给连接进程...

2019-04-05 15:40:20 117

原创 小白简述Spark Core SQL Streaming 的区别

Spark Core :Spark的基础,底层的最小数据单位是:RDD ; 主要是处理一些离线(可以通过结合Spark Streaming来处理实时的数据流)、非格式化数据。Spark SQL:Spark SQL 底层的数据处理单位是:DataFrame(新版本为DataSet<Row>) ; 主要是通过执行标准 SQL 来处理一些离线(可以通过结合Spark Streamin...

2019-04-05 15:01:23 321

原创 Gitblit的安装和使用

***Gitblit的安装和使用Gitblit 是一个纯 Java 库用来管理、查看和处理 Git 资料库。相当于 Git 的 Java 管理工具,或是git的管家。1.配置Jdk环境:由于Gitblit是纯java的应用,所以需要先安装JDK环境2.下载压缩包:从Gitblit官网下载最新的的压缩包3.解压缩文件:解压到/opt目录下:tar -zxvf ./gitblit -C ...

2019-03-26 01:50:52 1109

原创 Hive sql语句必练50题之41-50

41、查询不同课程成绩相同的学生的学生编号、课程编号、学生成绩:select distinct a.*from score a,score bwhere a.c_id != b.c_id and a.s_score = b.s_score and a.s_id=b.s_id;s_id c_id s_score03 01 8003 02 8003 03 8042、查询每门课程成绩最好...

2019-03-26 00:58:31 938

原创 Hive sql语句必练50题之31-40

31、查询1990年出生的学生名单:select *from studentwhereyear(s_birth)=‘1990’;s_id s_name s_birth s_sex01 赵雷 1990-01-01 男02 钱电 1990-12-21 男03 孙风 1990-05-20 男04 李云 1990-08-06 男32、查询每门课程的平均成绩,结果按平均成绩降序排列,平均...

2019-03-26 00:57:56 424

原创 Hive sql语句必练50题之21-30

21、查询不同老师所教不同课程平均分从高到低显示:select cs.t_id,sc.c_id,round(avg(sc.s_score),2) avgScorefrom score scjoin course cs on sc.c_id=cs.c_idgroup by cs.t_id,sc.c_idorder by cs.t_id,avgScore desc;t_id c_id a...

2019-03-26 00:57:08 1143 2

原创 Hive sql语句必练50题之11-20

11、查询没有学全所有课程的同学的信息:select distinct stu.*from student stujoin course aleft join score b on b.s_id = stu.s_id and b.c_id = a.c_idwhere b.s_score is null;s_id s_name s_birth s_sex05 周梅 1991-12-0...

2019-03-26 00:56:03 487

原创 Hive sql语句必练50题之1-10

//是否启用local模式SET hive.exec.mode.local.auto=true; //默认false1、查询"01"课程比"02"课程成绩高的学生的信息及课程分数:select stu.*,a.s_score 01_score,b.s_score 02_scorefrom student stujoin score a on stu.s_id = a.s_id and ...

2019-03-26 00:55:09 975

原创 Hive sql语句必练50题之导入数据

load data local inpath ‘/export/data/hivedatas/student.csv’ into table student;load data local inpath ‘/export/data/hivedatas/course.csv’ into table course;load data local inpath ‘/export/data/hived...

2019-03-26 00:52:49 250

原创 Hive sql语句必练50题之生成数据

vi /export/data/hivedatas/student.csv01 赵雷 1990-01-01 男02 钱电 1990-12-21 男03 孙风 1990-05-20 男04 李云 1990-08-06 男05 周梅 1991-12-01 女06 吴兰 1992-03-01 女07 郑竹 1989-07-01 女08 王菊 1990-01-20 女vi /export...

2019-03-26 00:51:54 407

原创 Hive sql语句必练50题之建表

create table student(s_id string,s_name string,s_birth string,s_sex string)row format delimitedfields terminated by ‘\t’;create table course(c_id string,c_name string,t_id string)row format...

2019-03-26 00:49:38 433

原创 OLAP与OLTP

OLTP1、联机事物处理系统(Online Transaction Processing),表示事务性很高的系统2、OLTP系统最容易出现瓶颈的地方就是CPU与磁盘子系统3、OLTP比较常用的设计与优化方式为Cache技术与B-tree索引技术,Cache决定了很多语句不需要从磁盘子系统获得数据4、OLTP 系统是一个数据块变化非常频繁,SQL 语句提交非常频繁的系统OLAP1、联机分...

2019-03-21 16:59:05 97

原创 第九天:子查询

子查询:sub query, 查询是在某个查询结果之上进行的.(一条select语句内部包含了另外一条select语句).子查询分类子查询有两种分类方式: 按位置分类; 按结果分类按位置分类: 子查询(select语句)在外部查询(select语句)中出现的位置From子查询: 子查询跟在from之后Where子查询: 子查询出现where条件中Exists子查询: 子查询出现在ex...

2019-03-17 00:08:13 110

原创 第八天:联合查询

联合查询: 将多次查询(多条select语句), 在记录上进行拼接(字段不会增加)基本语法多条select语句构成: 每一条select语句获取的字段数必须严格一致(但是字段类型无关)Select 语句1Union [union选项]Select语句2…Union选项: 与select选项一样有两个All: 保留所有(不管重复)Distinct: 去重(整个重复): 默认的un...

2019-03-16 21:27:33 543

原创 第七天:外键

外键:foreign key, 外面的键(键不在自己表中):如果一张表中有一个字段(非主键)指向另外一张表的主键,那么将该字段称之为外键.增加外键外键可以在创建表的时候或者创建表之后增加(但是要考虑数据的问题).一张表可以有多个外键.创建表的时候增加外键: 在所有的表字段之后,使用foreign key(外键字段) references 外部表(主键字段)在新增表之后增加外键: 修...

2019-03-16 20:50:22 151

原创 第六天:连接查询

连接查询:将多张表(可以大于2张)进行记录的连接(按照某个指定的条件进行数据拼接): 最终结果是: 记录数有可能变化, 字段数一定会增加(至少两张表的合并)连接查询的意义:在用户查看数据的时候,需要显示的数据来自多张表.连接查询: join, 使用方式: 左表 join 右表左表: 在join关键字左边的表右表: 在join关键字右边的表连接查询分类SQL中将连接查询分成四类: 内...

2019-03-16 20:32:33 267

原创 第五天:数据高级操作之查询数据

基本语法:select 字段列表 / * from 表名 [where 条件];完整语法:select [select 选项] 字段列表 [字段别名] / * from 数据源 [where 条件][group by 子句] [having 子句] [order by 子句] [limit 子句]select 选项select 选项:select对查出来的结果的处理方式all:默认,...

2019-03-16 09:05:09 358

原创 第四天:数据高级操作之更新删除数据

基本语法:Update 表名 set 字段 = 值[where 条件];高级新增语法:Update 表名 set 字段 = 值[where条件][limit 更新数量]删除数据:与更新类似:可以通过limit 限制数量delete from 表名[where 条件] [limit 数量]删除:如果表中存在主键自增长,那么当删除之后,自增长不会还原思路: 数据的删除是不会改变表结...

2019-03-16 09:02:47 91

原创 Flume

日志在tomcat服务器上 /data/access.log自己开发采集工具涉及读数据、缓存、写数据flume:单个文件不超过两G配置:1、文件大小2、时间3、event数量数据不丢失:1、备用channel2、维护偏移量3、事物分片:max(min(块大小与long最大值),1)分片:为了避免一行数据被切成两片,默认多读一行maptask : reducetask数...

2019-03-16 00:52:08 124

原创 第三天:数据高级操作之新增数据

数据操作:增删改查一、新增数据:基本语法insert into 表名[(字段列表)] values (值列表);主键冲突:当主键存在冲突的时候,可以选择性的进行处理:更新与替换1、更新Insert into 表名[(字段列表:包含主键)] values(值列表) on duplicate key update 字段 = 新值;2、替换Replace into 表名 [(字段列表:...

2019-03-15 21:24:09 107

原创 事务的四大特性,以及隔离级别

数据库必须具备的四个特性1:原子性:事务包含的所有操作要么全部成功,要么全部失败回滚;成功必须要完全应用到数据库,失败则不能对数据库产生影响;2:一致性:事务执行前和执行后必须处于一致性状态,例:用户A和用户B的前加起来一共是5000; 无论AB用户之间是如何相互转换的,事务结束后两个用户的钱加起来还是5000,这就是事务的一致性。3:隔离性:当多个用户并发访问数据库时,数据库为每一个用户...

2019-03-15 12:27:53 78

原创 MySQL范式

范式背景:1、是为了解决数据冗余2、是为了数据的优化与存储3、保存数据之后,可以通过关系得到的数据,不再存储范式概念:1、是一种分层结构的规范,分为6层2、每一层都比上一层更严格3、若要满足下一层范式,前提是满足上一层4、范式在数据库中具有指导意义,但是不强制规范5、数据库不仅要考虑空间问题,还要考虑效率问题,一般用前第三层6、六层范式: 1NF,2NF,3NF…6NF, 1N...

2019-03-15 02:34:26 1583

原创 jdbc面试题

JDBC常见面试题JDBC操作数据库的步骤 ?注册数据库驱动。建立数据库连接。创建一个Statement。执行SQL语句。处理结果集。关闭数据库连接代码如下:Connection connection = null;Statement statement = null;ResultSet resultSet = null;try { /*...

2019-03-14 14:08:15 292

原创 zookeeper笔记

Zookeeper是一个分布式协调服务;就是为用户的分布式应用程序提供协调服务 1、zookeeper是为别的分布式程序服务的 2、Zookeeper本身就是一个分布式程序(只要有半数以上节点存活,zk就能正常服务) 3、Zookeeper所提供的服务涵盖:主从协调、服务器节点动态上下线、统一配置管理、分布式共享锁、统一名称服务…… 4、虽然说可以提供各种服务,但是zookeeper在底层...

2018-09-01 11:13:45 127

大数据风控-张孝昆 著

大数据风控 张孝昆 著

2019-03-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除