大数据
文章平均质量分 68
大数据相关内容
醪糟小丸子
这个作者很懒,什么都没留下…
展开
-
ES修改字段的数据类型
查看mapping或者在选择字段的时候可以看到字段keyword的数据类型是。无法使用sort进行排序,现需要改成。因此,做以下修改就可以查出来了。将旧索引的数据导入新索引。查询可以看到数据导入成功。原创 2023-09-18 19:13:04 · 2525 阅读 · 0 评论 -
一文搞懂什么是“退化维度”
当一个维度没有数据仓库需要的任何数据的时候就可以退化此维度,需要把退化的相关数据迁移到事实表中,然后删除退化的维度。退化维度没有对应的维表,但可以获取与之相关的事实,如上订单号对应的订购者,服务对应的订购金额等。Kimball书中对退化维度的描述为:操作型事务控制号码,例如:订单号码,发票号码,提货单号码通常产生空的维度,经常保存为事实表中的退化维度。退化维度是没有对应维度表的维度键。关键字关系型数据库维度。原创 2023-01-04 16:24:35 · 4285 阅读 · 1 评论 -
【读书笔记】《大数据之路》——维度设计总结(3)
弊端:存储浪费,比如某个维度每天的变化量占总体数据量很小比重,但每天仍要存一份这个维度的数据(可以设置好生命周期,清理历史数据)通过将一部分不稳定的属性从主维度中移出,并将它们放置到拥有自己代理键的新表中。Kimball维度建模理论中,必须使用代理键作为每个维表的主键。......原创 2022-08-14 20:43:43 · 871 阅读 · 0 评论 -
【读书笔记】《大数据之路》——维度设计总结(2)
如何设计维度? 出于扩展性、产出时间、易用性等方面考虑,设计主从维度。主维表存放稳定、产出时间早、热度高(使用频繁)的属性,从维表存放变化较快、产出时间晚、热度低的属性。......原创 2022-08-08 23:35:24 · 563 阅读 · 0 评论 -
【读书笔记】《大数据之路》——维度设计总结(1)
规范化技术(雪花模型):一个属性只存在于一张表, 删除冗余数据,可以避免数据的不一致性。(对OLTP友好,对OLAP能节约存储,但需要大量关联操作,查询性能差)维度中的描述属性以层次方式或一对多的方式相互关联。在创建事实表时,可以按照属性的层次结构向下钻取数据。反规范化技术:将维度属性层次合并到单个维度中,更适用于统计分析,降低了分析复杂度。描述为“维度”,维度是用于分析事实所需要的多样环境。维度所包含的表示维度的列,称为。雪花模型:属性层次被实例化成一系列的维度,而不是单一的维度。......原创 2022-08-07 20:23:50 · 618 阅读 · 4 评论 -
DataGrip之一个赏心悦目的SQL格式化模板,快用起来吧
前段时间做需求,同事吐槽我的代码难以阅读,非让我用vs code,从最开始使用的notepad++到sublime,再到datagrip,发现最后一个功能更全一点,所以还是决定坚持用这个工具来格式化我的SQL。 如果你懒得去自己一个个试,那么可以套用这个。一、DataGrip的SQL格式化设置菜单1.Preference(command+,)2.Editor->Code Style->General二、格式化模板1.Queries (查询)...原创 2022-03-27 00:14:38 · 10071 阅读 · 1 评论 -
找实习的一些感悟(图像算法转大数据)——女孩也能干开发
亲爱的读者,首先说明一下,本人虽然有很多原创文章,但大部分是学习总结及bug解决方法,值得看的文章已经置顶,当然你们也可以自己挑一挑。对于一个计算机行业的初生牛犊,可能我的学习经历及其他经历的分享才是干货中的干货,该文章内容偏长,如果您能耐心看完,一定会有所收获。以下内容是我亲身经历所悟,不能确保都说的准确,但是希望能产生更多的共鸣,帮助一些迷迷糊糊的孩子。文章涉及到的点: 对于计算机行业来说技术重要还是学历重要? 大公司会卡第一学历是专科的吗? 女孩子甚至是男孩子该选.原创 2021-04-18 17:50:43 · 2695 阅读 · 29 评论 -
如何看待“大数据杀熟”现象(个人观点,仅供参考)
现如今已是大数据的时代,给人们最直观的感受就是网上购物,因而大部分人对这个概念有所了解。当用户打开淘宝浏览一些想购买的东西时,等下一次再打开淘宝,首页面就都会是相关内容了。不仅如此,当打开其他手机软件,或网页浏览器,同样也会推送相关的广告信息。之前听别人说,他剃须刀坏了,给旁边的人说想买个新的,后来他上网准备购买,打开页面就是剃须刀的广告,他当时非常震惊,因为他近期从未搜索过,于是他告诉我们怀疑...原创 2020-03-10 19:33:36 · 10843 阅读 · 0 评论 -
大数据概述
大数据基本概念用新的技术进行海量数据处理简言之,大数据:1.有海量的数据2.有对海量数据进行挖掘的需求3.有对海量数据进行挖掘的软件工具(Hadoop、spark、storm、flink、tez、impala....)处理海量数据的核心技术分布式——海量数据存储、海量数据运算存储框架1.HDFS——分布式文件存储系统(Hadoop中的存储框架)补充:数据库系统就是在文件系统上封装一层2.HBase——分布式数据库系统3.KAFKA——分布式消息缓存系统(.原创 2021-01-11 16:55:34 · 213 阅读 · 0 评论