- 博客(16)
- 收藏
- 关注
原创 大数据之Elasticsearch入门——第一章Elasticsearch基础
1.Elasticsearch介绍Elasticsearch不是什么新技术,主要是将全文检索、数据分析以及分布式技术,合并在了一起,才形成了独一无二的Elasticsearch.数据库的功能面对很多领域是不够用的(事务,还有各种联机事务型的操作);特殊的功能,比如全文检索,同义词处理,相关度排名,复杂数据分析,海量数据的近实时处理;Elasticsearch作为传统数据库的一个补充,提供了...
2019-12-26 21:59:46 597
原创 redis,mysql,elasticsearch,hbase,hive对比区别,该如何选择
几种数据库对比如下: redis mysql elasticsearch hbase hive 容量/容量扩展 低 中 大 海量 海量 查询时效性 极高 中等 较高 较高 低 查询灵活性 较差 非常好 较好 较差 非常好 写入速度 极快 中等 ...
2019-12-26 21:28:55 4751
原创 实时同步工具canal入门
canal主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费。在大数据中广泛用于实时数据的采集。1.canal原理mysql并没有实现增量数据的查阅消费功能,先来说说mysql主备复制原理。mysql主节点对数据库做了任何写操作,都会写入Binary log文件。而slave备份节点会主动去master节点读取Binary log文件,拷贝到自己的节点上,变为R...
2019-12-09 21:02:00 2510
原创 大数据之Kylin入门——第五章Kylin之cube构建优化
前面说过构建一个n维的cube有多少种情况了,2^n-1种。构建一个10维的是1023种情况,一个20维的是1048576。那如果有30维甚至100维的了?这对于集群来说压力非常大,所以我们应该想想到底有没有必要构建这么多种情况了。举个例子,年,月,日三个字段总共可以构建7种可能。但是年,日构建起来有必要吗?单独一个日构建有必要吗?真正有价值的组合是 年月日、年月、年,这3种可能。计算的可能性...
2019-11-29 21:54:16 552
原创 大数据之Kylin入门——第四章Kylin之cube构建算法
第三章中步骤4中的多维度构建cube其实非常巧妙,不得不佩服最开始想出这些算法的人真的非常聪明,算法不复杂但非常巧妙。cube的构建算法有两种。早期的是逐层构建算法,后来改进之后又有了快速构建算法。1.逐层构建算法如图所示,数据总共有4维,全量的数据从下往上构建而不是从上往下构建。这是为什么了?因为从4维表能得到3维表,从3维表能得到2维表,这样就节省了很多运算。不用每次都从...
2019-11-29 21:20:52 639
原创 大数据之Kylin入门——第三章Kylin之cube构建原理
上一章中讲了怎么创建cube,最后演示了一个cube怎么执行的,这一章来说说kylin到底是怎么来构建cube的。点击我们的cube的最右边的箭头,页面右边展示了整个cube构建的详细步骤,查看每个步骤的log,显示详细构建过程。1.构建中间表。拿第二章的例子来说,就是构建由员工和部门组成的宽表。日志如下:2.将中间表的数据均匀分配到不同的文件。因为后面的程序是...
2019-11-28 23:05:16 644
原创 大数据之Kylin入门——第二章Kylin入门
1.数据准备hive建表语句和一些测试数据:部门表:create external table if not exists default.dept(deptno int,dname string,loc int) row format delimited fields terminated by '\t';10 ACCOUNTING 170020 RESEARCH 1...
2019-11-28 22:21:24 453
原创 大数据之Kylin入门——第一章Kylin简介
1.Kylin是什么Apache Kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口以及多维分析(OLAP)能力以支持超大规模数据,最初由eBay开发并贡献至开源社区,名字也很中国风,麒麟。Kylin的很多内容很多都是国内开发人员开发贡献的,官方文档中文版也非常友好。Kylin它能在亚秒内查询巨大的Hive表。第一次看到这段简短的文字说明,我当时就纳闷了...
2019-11-26 23:51:54 561 1
原创 spark streaming实战运用
简单介绍一下业务场景。门户网站,用户有时会点击一些广告,但是有一些用户可能恶意点击广告,所以需要过滤掉这些用户并保存至黑名单中。然后想实时分析一下这些广告的数据,比如今天一天各个省份各个城市广告的排名,近一个小时的实时排名等。技术点:1.transform算子的运用。2.reduceByKeyAndWindow窗口函数的运用。3.updateStateByKey的运用。4...
2019-11-21 12:33:01 579
原创 Spark FPGrowth关联规则算法
关联规则挖掘最经典的例子就是购物篮分析。也就是根据顾客购买行为模式,分析出商品与商品之间的联系。比如买了炸鸡,和可能接下来去买啤酒。这对于商品的布局,库存安排以及商业推销都有很大帮助。而我项目中也用到了关联规则算法,第一个是挖掘店铺和店铺之间的关系,第二个是挖掘店铺内商品与商品之间的关系。(这点我觉得分析意义不大,因为店铺内其实数据不大,种类也不是很多,挖掘的意义不大,但是领导有安排,咱就得做...
2019-11-16 08:57:40 979
原创 Spark协同过滤推荐
项目最近需要给用户推荐潜在的店铺,当时也在考虑是用协同过滤推荐还是用ALS训练模型,但是考虑到数据量是以一年为周期每天更新跑的,模型就算训练出来也没多大用处。耗时,调参,没有必要。所以还是决定使用协同过滤推荐。而我采用的是同现相似度矩阵来计算的。相关的原理介绍我这里就不再重复了,大家可以搜搜,有很多源码,只是对于矩阵不熟悉的人想告诉大家每个步骤计算得到的是什么内容,看着rdd一步一步往下走但是...
2019-11-14 14:57:50 450 1
原创 Structed Streaming写入数据到mysql,kafka中
structed streaming是spark2.x之后更新的,一句话介绍就是比spark streaming更高级的api工具。举个例子,当我们做实时单词统计的时候,每一个批次的数据都能统计出来。如果要统计前面几个批次的所有数据该怎么办?在spark streaming里面只能自己实现,而Structed Streaming却帮我们实现好了。不过了数据统计完成之后该如何输出保存了...
2019-11-12 21:14:17 1715
原创 spark读取hive问题汇总
hive的计算引擎是tez,该如何配置?spark读取hive的数据报错,按照网上的说明,将hive的conf目录下的hive-site.xml复制到spark的conf目录下,并添加上hive的metastore。<property> <name>hive.metastore.uris</name> <value&...
2019-11-08 17:42:10 1947
原创 大数据项目之电商数仓离线计算
本次项目是基于企业大数据的电商经典案例项目(大数据日志以及网站数据分析),业务分析、技术选型、架构设计、集群规划、安装部署、整合继承与开发和web可视化交互设计。1.系统数据流程设计我这里主要分享下系统数据大致流通的过程。电商数据来源为两部分:第一部分是java以及前端等程序员在网站做的埋点,用户点击产生的日志数据,通过springboot以及nginx等将数据分发到日志...
2019-11-08 10:24:42 4673 3
原创 hbase的rowkey该怎么设计
网上查了很多资料,关于hbase rowkey到底应该怎么设计。总结下来就是4点。1.唯一原则。必须在设计上保证其唯一性。由于在HBase中数据存储是Key-Value形式,若HBase中同一表插入相同Rowkey,则原先的数据会被覆盖掉(如果表的version设置为1的话),所以务必保证Rowkey的唯一性。2.排序原则。HBase的Rowkey是按照ASCII有序设计的,我们在设...
2019-11-04 21:23:19 2147
原创 对String在多线程中的一些简单认识
最近在看多线程,synchronized代码块时候说到用String对象来当作锁,然后说最好不要用String对象来当作锁,这是为什么了?可以先看一段程序。public class StringLock { public void method() { //new String("字符串常量") synchronized ("字符串常量") {
2017-11-08 15:56:08 1688
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人