![](https://img-blog.csdnimg.cn/19bab62df660498cb52aad0688c878ac.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据
文章平均质量分 81
大数据
五只鸭子
数据人
展开
-
埋点事件属性设计方案
除了通用属性外,通常根据不同的业务,或操作展现性质,会有不同的属性,为了让事件属性不要膨胀,建议在埋点管理系统中将事件和事件属性进行严格管控。预制事件通常由第三方的埋点系统自己上报,市面上有比较多的第三方埋点系统,例如神策、每一个页面离开的时候,需要上报 page_leave 事件,事件名称为 页面离开。每一个页面进入的时候,需要上报 page_view 事件,事件名称为 页面浏览。可以规定事件创建的时候,属性必须是从现有的属性池中选择,而不是随意添加。事件的通用属性,每个元素事件都需要上传。原创 2024-02-25 14:20:30 · 1426 阅读 · 0 评论 -
用户行为埋点采集方案架构概览
在互联网应用中,了解用户的行为对产品的优化和公司的战略至关重要,市面上主要涵盖这三种埋点方式,分别是全埋点、可视化埋点和代码埋点,各有优缺点,一般有实力的企业都会选择代码埋点,更加灵活而且能获取到更加丰富的信息。图1 :三种埋点方式的对比我们详细讨论下代码埋点的架构和基本概念。原创 2024-02-25 13:47:39 · 510 阅读 · 0 评论 -
线性代数:理解矩阵的基本操作:加法、减法和乘法
矩阵是线性代数中的一种基本结构,广泛应用于数学、物理、计算机科学等领域。在本文中,我们将深入探讨矩阵的加法、减法和乘法操作,通过图文和Python代码来一起逐步理解这些基本操作。原创 2024-02-24 21:18:47 · 1335 阅读 · 0 评论 -
用SpEL优雅实现Kafka中的消息被group中所有机器都消费
一种思路是让每台机器的groupid不一致,例如group name加上本机IP, 这样就能实现所有的机器都能消费到同一个topic了。还有一种业务场景,需要让每台机器都消费topic中的消息。例如本地缓存的场景,在应用集群部署的环境下,需要把数据库里面的内容缓存到每台机器的本地。数据库内容变更的时候,发送kafka消息,每台机器都需要更新本地的缓存。通常来说,Kafka中的一条消息在同一个消费组(group)中只能被一个消费者消费,这种场景在应用端集群部署的时候非常适用。原创 2024-02-24 09:58:11 · 256 阅读 · 0 评论 -
数据治理在学术上的发展史以及未来展望
数据治理是大数据领域中非常重要的一环,从早期的学术研究到如今的各大企业落地实践,经历了漫长的过程,数据治理的实践落地本身也是一场马拉松。从百度学术通过精确关键词匹配,搜索中文期刊的“数据治理” 和外文期刊的“data governance”查看1980年以来的论文发布数量,2000年之前没有收录记录。2000-2009年有少量收录,2010年之后开始指数级上升。当然,百度学术的数据不一定完全,只能反映一部分情况,只能做一个简单的参考。原创 2023-04-28 17:34:18 · 1773 阅读 · 1 评论 -
猿创征文|TiDB架构解析和注意事项
TiDB是一款开源的分布式HTAP数据库,同事支持TP(Transactional Processing)的在线事务处理,也支持AP(Analytical Processing)的在线分析处理。实际使用下来的感受:TP场景的高并发确实非常优秀,但是AP场景的分析能力相对专业的AP数据库还是存在不足之处。TiDB的最大亮点:通过 Multi-Raft Learner 协议将TiKV的数据实时复制到TiFlash,确保行存储引擎 TiKV 和列存储引擎 TiFlash 之间的数据强一致。原创 2022-10-06 21:43:42 · 2046 阅读 · 0 评论 -
Redis 逻辑过期策略设计思路
当我们平常使用Redis缓存的时候,会出现一种场景, redis的key到过期时间了,总是需要到数据库里面去查一遍数据再set回redis,这个时候如果数据库响应比较慢,那么就会造成用户等待,如果刚好并发比较大,则有可能给数据库造成巨大的压力,甚至导致服务不可用。当客户端发起GET请求的时候,首先判断Value是否有值。如果没有,说明物理过期时间已经过期了,这个时候执行LoadValue函数,一般是从数据库里面加载数据,然后再调用Set请求,将数据set进Redis,并将数据返回给Client。原创 2024-04-18 15:16:54 · 2402 阅读 · 0 评论 -
浅谈企业的数字化转型
企业为什么要做数字化转型我们怎样看待这个世界?“数字孪生”概念的兴起让我们能以数字化的角度来看待这个物理世界,一切在物理世界的实体都能在数字世界里映射出来。借助数字孪生,可以将物理世界的实体进行建模映射在数字世界,在数字世界通过量化的方式,可以更加直觉的了解物理实体的状况。然后对量化的数据进行提炼挖掘和分析,提取出有用的信息,这些信息再输出给物理世界,从而帮助物理世界做出更为合理的行动和决策,帮助物理世界改进流程,再将改进的流程再次映射到数字世界,如此形成一个正向的循环。企业一旦形成这种正向的循环,原创 2022-04-19 19:43:49 · 4728 阅读 · 1 评论 -
ElasticSearch join连接查询
ElasticSearch join连接查询 特别说明:文章所有内容基于ElasticSerch 5.5.3版本ElasticSerch 的连接查询有两种方式实现nestedparent和child关联查询nested存储结构 nested的方式和其他字段一样,在同一个type里面存储,以数组的方式存储在type里,格式如下:PUT index...原创 2018-07-10 20:28:08 · 55360 阅读 · 9 评论 -
ElasticSearch 聚合筛选,类似SQL里面的having
ElasticSearch 聚合筛选,类似SQL里面的having 特别说明:文章所有内容基于ElasticSerch 5.5.3版本背景我们在实际业务场景中会遇到聚合筛选的需求,需要先分组然后聚合,再通过聚合的结果进行筛选,关系型数据库中有having或者子查询来实现,ES中key使用 bucket_selector 来实现此功能实际业务场景需要找出下单次数大于等于...原创 2018-07-11 16:17:03 · 17269 阅读 · 7 评论 -
ElasticSearch es 插件开发
ElasticSearch es 插件开发1. 插件分类API Extension Plugins API扩展插件 通过添加新的API或功能向Elasticsearch添加新功能,通常与搜索或映射有关。 优秀插件代表: SQL language Plugin: 让 Elasticsearch 支持 SQL语句查询 (by NLPchina)Alerting Plugins 告警插...原创 2018-09-16 14:30:28 · 8316 阅读 · 0 评论 -
Hadoop生态系统全面介绍
Hadoop作为大数据的分布式计算框架,发展到今天已经建立起了很完善的生态,本文将一一介绍基于Hadoop生态的一系列框架和组件。Flume简介:Flume 是一个分布式、高可用的服务,用于高效收集、聚合和移动大量日志数据。作用:Flume 主要承载的作用是收集各个数据源的事件或日志数据,然后将其Sink到数据库架构Flume的实现架构原理也非常简单,通过Agent代理来实现数据的收集,一个Agent包含了Source,channel,Sink三个组件。Source:采集的数据来源原创 2022-05-28 10:22:35 · 9347 阅读 · 0 评论 -
MaxCompute(ODPS):Hive的进阶者
Hive概述架构于Hadoop之上,可以将结构化的HDFS文件映射成一张表,并提供了类似于SQL语法的HQL查询功能核心本质:将HQL语句转换成MapReduce任务Hive的主要优缺点优点:避免了开发人员去实现Map和Reduce的接口,大大降低了学习成本HQL语法类似于SQL语法,简单、容易上手缺点:执行效率比较低 Hive生成的MapReduce任务,不够智能化,容易造成数据倾斜Hive架构图每个模块负责的内容:Meta Store: 元数据,一般存储在mysqlClient原创 2022-04-22 21:11:56 · 4073 阅读 · 0 评论 -
MySQL设计和开发规范
说明:此设计规范考虑了业务规范和数据处理的规范,其中的主键ID和etl_update_time字段的规范是为了方便数据平台分析处理数据。Common不要使用MySQL保留关键字建议级别:强制说明:不论是库名,表名,字段名,索引名等都不要使用MySQL保留的关键字。5.6版本的完整关键词参考MySQL官方文档:https://dev.mysql.com/doc/refman/5.6/en/keywords.html#keywords-5-6-detailed-A反例:from,time,key原创 2022-04-19 14:56:37 · 269 阅读 · 0 评论