- 博客(2357)
- 资源 (69)
- 问答 (17)
- 收藏
- 关注
原创 Docker 实战:The path xxx is not shared from the host and is not known to Docker
我们要确保文件路径在 Docker 守护程序的共享目录中。Docker 守护程序有一个默认的共享目录,需要把文件路径添加到共享目录下
2024-05-01 15:35:10 450 1
原创 Docker 实战:容器基本操作
容器是 Docker 的另一个核心概念。简单来说,容器是镜像的一个运行实例。所不同的是,镜像是静态的只读文件,而容器带有运行时需要的可写文件层,同时,容器中的应用进程处于运行状态。
2024-04-30 16:16:19 702
原创 Docker 实战:The container name xxx is already in use
The container name xxx is already in use。
2024-04-30 13:37:46 595 2
原创 Docker 实战:在 Docker 中安装 Redis
本文章将介绍如何使用 Docker 探索 Redis。我们可以在 Docker for Windows 、Docker for mac 或者 Linux 模式下运行 Docker 命令。本文是基于Docker for mac。
2024-04-30 12:04:49 286
原创 Docker 实战:镜像基本操作
镜像是运行容器的前提,官方的 Docker Hub 网站已经提供了数十万个镜像供大家开放下载。本文主要介绍 Docker 镜像的基本操作。
2024-04-29 22:44:08 655
原创 Docker 实战:dockerfile parse error on line 1: FROM requires either one or three arguments
可以看出以 ‘#’ 开头的一行被视为注释,即注释需要单独作为一行。如果出现在其他位置会被视为参数,也就不难理解报错原因了。
2024-04-29 20:09:28 442
原创 Docker 实战:镜像内部结构
为什么我们要讨论镜像的内部结构?如果只是使用镜像,当然不需要了解,直接通过 docker 命令下载和运行就可以了。但如果我们想要创建自己的镜像,或者想理解 Docker 为什么是轻量级的,就非常有必要学习这部分知识了。我们以两个镜像为例来讲解一个镜像的内部构成。
2024-04-28 16:29:25 734
原创 Docker 实战:使用 Docker Desktop 在 MacOS 上安装 Docker
在这采用 Docker Desktop 在 Mac 上来安装 Docker。Docker Desktop 是 Docker 的管理桌面 IDE,提供了一个直观的GUI(图形用户界面),允许您直接在本机上管理容器、应用程序以及镜像。适用于 Mac、Linux 以及 Windows 环境,允许您构建、共享和运行容器化应用程序和微服务。Docker Desktop 可以大大降低在复杂配置上的时间,因此您可以专注于编写代码。它负责端口映射、文件系统问题和其他默认设置,并定期更新 Bug 修复和安全更新。
2024-04-28 15:19:47 3900
转载 基于 Apache Calcite 的多引擎指标管理最佳实践
文章介绍了基于 Apache Calcite 的多引擎指标管理的技术原理与最佳实践,包括指标管理的常见方式、指标管理的最佳实践、指标管理的实现原理以及指标管理在字节跳动未来的一些规划,重点阐述了指标管理在业内常见的解决方案与字节内部使用的一套 SQL 两种语法多引擎指标管理方案的异同;字节内部如何使用一套 SQL 两种语法实现降本增效以及指标管理技术的具体实现方案。
2024-04-22 08:00:11 119
原创 Debezium 1.9.0.Alpha2 正式发布
我很高兴宣布 Debezium 1.9 系列的第二个版本,1.9.0.Alpha2 正式发布。此版本包含了对 Oracle 21c 的支持、围绕 Redis for Debezium Server 的改进、配置 kafka.query.timeout.ms 参数以及围绕 DDL 解析器、构建基础架构等的许多 Bug 修复。整体来说,在此版本修复了个问题。让我们一起看看其中的一些亮点。
2024-04-21 19:54:19 46 1
原创 Debezium 1.9.0.Alpha1 正式发布
我很高兴宣布 Debezium 1.9 系列的第一个版本 1.9.0.Alpha1 正式发布。这是新的一年来的第一个新版本!Debezium 1.9.0.Alpha1 版本包含大量修复和改进,最显着的是改进了指标以及提供对 Oracle ROWID 数据类型的支持。
2024-04-21 19:52:33 34
原创 Debezium 1.9.0.CR1 正式发布
我很高兴宣布 Debezium 1.9.0.CR1 正式发布!除了修复一系列 Bug 之外,这个版本还带来了期待已久的功能:对 Apache Cassandra 4 的支持!整体而言,在这个版本修复了 52 个问题。现在让我们仔细看看在 Cassandra 3 上的变化以及对 Cassandra 4 的支持。
2024-04-21 19:50:56 36
原创 Debezium 初了解
在研究 Flink CDC 时,其中涉及了 Debezium,便决定研究一下 Debezium。这篇文章简单介绍了 Debezium 是什么,以及它的架构和特性。后续文章中会后续介绍其功能特性以及如何使用。
2024-04-21 18:39:48 314 1
转载 2022年数据工程现状
虽然该领域的公司数量在不断增加,但可以看到,其中有几个类别的产品出现了整合迹象。MLOps 趋向于端到端,Notebook 正在进入编排领域,而编排正在转向数据谱系和可观察性。与此同时,我们看到,开放式表格式进入了元存储功能。而在治理层,安全和权限管理工具进入目录领域,反之亦然。本文最初发布于 lakeFS 官方博客。自我们分享“2021 年数据工程现状”已经过了一年。从去年 5 月我们发布那篇文章以来,数据领域并没有多少变化。事实上,我们曾在内部讨论过 2022 年还要不要做一次更新。开玩笑的。
2024-04-21 15:19:21 37
转载 2024 开源数据工程生态系统全景图
虽然生成式人工智能和ChatGPT带来的沸沸扬扬的炒作令科技界为之一振,但在数据工程领域,2023年仍然是一个令人振奋和充满活力的一年,数据工程生态系统变得更加多样化和复杂化,系统中的所有层面都在不断创新和演进。随着各种开源工具、框架和解决方案的持续涌现,数据工程师的选择也越来越多!在这样快速变化的环境中,紧跟最新技术和趋势的重要性不言而喻。选择合适的工具来完成合适的工作是一项至关重要的技能,确保在不断变化的数据工程挑战面前保持效率和相关性。
2024-04-21 10:17:28 100
转载 微信亿级用户异常检测框架的设计与实践
如何在大规模数据下检测异常用户一直是学术界和工业界研究的重点,而在微信安全的实际生态中,一方面,黑产作恶手段多变,为了捕捉黑产多变的恶意模式,若采用有监督的方法模型可能需要频繁更新,维护成本较高;另一方面,通过对恶意帐号进行分析,我们发现恶意用户往往呈现一定的“聚集性”特征,因此这里需要更多地依赖无监督或半监督的手段对恶意用户进行检测。然而,微信每日活跃帐号数基本在亿级别,如何在有限的计算资源下从亿级别帐号中找出可疑帐号给聚类方案的设计带来了不小的挑战,而本文则是为了解决这一问题的一个小小的尝试。
2024-04-20 22:57:45 50
转载 蚂蚁金服异常检测和归因诊断分析实践
在实际工作中,我们常常受到业务方对关键绩效指标(KPI)的灵魂拷问:某个 KPI 指标为什么会上升或下降?归因诊断的任务就是解释这些指标变化的原因。
2024-04-19 07:22:48 73
转载 异常检测:百度是这样做的
异常检测需要监控的业务繁多,覆盖了搜索、广告、地图、糯米等百度大部分的产品业务。及时发现这些业务请求数、拒绝数、响应时间、流水和订单等数据的异常波动,是业务稳定性的重要保证。这些数据不但数量众多,而且不同业务的曲线也有截然不同的特征。第一幅曲线图中有蓝、绿两根曲线,分别代表当前时刻数据和上周同一时刻的数据。蓝色曲线几乎完全覆盖了绿色曲线,说明数据有规整的周期特性。第二幅曲线图中,紫色曲线是当前时刻数据,蓝色曲线是上一周的数据。可以看出:数据有一定的周期性,但又不如第一幅图那么规整。
2024-04-06 15:33:07 145
原创 Latex 常用数学公式
一般来说,1/2 这种形式更受欢迎,因为对于少量的分式,它看起来更好些。这样极限函数的上标和下标就会出现在符号的上下方,而不是右下方。放在开分隔符前,会自动决定分隔符的正确大小。某些情况下有必要手工指出数学分隔符的正确大小,这可以使用命令。,并且只有当这两个分隔符排在同一行时大小才会被正确确定。方根符号的大小由 LATEX自动加以调整。在定义从 A 到 B 的向量时非常有用。作为大多数分隔符命令的前缀。在表达式的上、下方画出水平线。在表达式的上、下方画出一水平的。你可以在下述命令的前面加上。
2024-03-27 21:43:31 1189
转载 字节基于用户画像标签的分析及业务场景应用
随着企业数字化转型的深入发展,对用户深层理解的渴望日益迫切。在此背景下,本次分享精心剖析了用户画像标签的精髓及其在多变业务场景中的关键作用。从基础属性标签到策略上的标签,不仅系统性地介绍了各类型标签的构建与应用,还着重强调了在快节奏的数字化时代中,如何通过高效的异常值处理、时间衰减考量及数据区分度提升等手段,确保标签的准确性和实用性。并且深入讨论了如何长期评估和追踪用户画像的内聚性和稳定性,为数据产品经理提供了一把锐利的工具,助力其在激烈的市场竞争中准确把握用户需求,不断提升产品和策略的效能。
2024-03-17 10:31:57 179
转载 基于宽表的数据建模应用
宽表建模更适合面向快速迭代的数据驱动型业务,能够提升业务效率基于当前的业务实践,宽表在存储和查询性能方面相比于传统数仓更优在业务效率提升的同时,宽表的建设会对数据生产和维护成本有所提升,还需结合实际应用进一步优化探索未来规划:基于宽表可以更方便的构建自助分析平台,进一步提升业务分析效率。
2024-03-13 10:27:03 115
转载 数据工程师如何应对巨量的取数需求?
做为一个数据工程师,这是必然要经历的过程,但只是经历不能一直深陷其中,如果你所在的部门一直处于接巨量的取数需求的状态,说明部门的数据建设的方向可能是不对的,那就让我们来看看有哪些破解之法吧,当然这次分享的破解之法,也肯定不是让这些需求排期,或者通过需求价值过滤需求等“行政”管理的方法,而是从技术与架构设计的角度给你一个全新的解决此类问题的视角。
2024-03-13 07:33:32 80
转载 信贷场景用户画像构建与应用
今天分享的主题是信贷场景用户画像构建与应用,将结合信贷场景的特殊性,深入讨论如何建立一个服务于整个信贷业务场景的用户画像特征体系。
2024-03-04 20:54:35 326
转载 如何基于数据科学进行用户兴趣分群?爱奇艺算法验证和迭代思路公开
爱奇艺商业智能部门总监陆祁女士将介绍爱奇艺在用户兴趣分群上的探索和实践,主要介绍如何基于数据科学进行用户兴趣分群,如何基于事实数据生成用户兴趣标签,以及介绍算法验证和迭代的思路,最后介绍如何基于用户聚类的方法去做用户兴趣分群。
2024-03-02 10:53:49 105
转载 美团 Doris Bitmap 精确去重优化实践
第一部分将介绍精确去重的业务场景以及现有的一些解决方案,并讲解 Doris MPP 架构在两阶段聚合实现中的原理和 Bitmap 数据结构的作用。在流量场景中,精确去重计算无疑是一项重要任务。尤其在计算多种维度下的去重指标时,如 PV、UV 及日活用户数等,去重指标的计算复杂度相较于普通指标(如 SUM 或 AVG)更高,更容易成为性能瓶颈。数仓生产:在 OLAP 引擎现场计算能力出现之前,去重指标的计算可以在数据仓库生产环节完成。
2024-01-30 07:55:19 530
转载 得物大模型平台接入最佳实践
本文介绍了业务系统接入大模型的三种方式:PROMPT、RAG和Fine-tuning。我们通过具体的实践案例,展示了这三种方式在不同场景下的效果和优势,以及如何根据业务需求和数据情况选择合适的方式。最后建议业务接入大模型的最佳实践,渐进式的接入,即 PROMPT,RAG,Fine-tuning,这个也是借鉴 OpenAI 开发者大会提出的接入方式。大模型是未来业务创新的重要驱动力,可以帮助业务提升效率、质量和用户体验。
2024-01-27 13:24:32 634
转载 智能化、自动化,揭秘抖音集团数据质量前沿探索
目前互联网行业已经进入成熟的大数据应用时代,数据“用起来”的问题已基本得到解决,随之而来的就是数据治理的问题,尤其是其中的数据质量问题。数据质量,是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。这次分享主要聚焦在数据质量智能化和自动化方面的思考和实践。从应用场景视角来看待数据质量问题,通过自动化、智能化技术让数据质量可以被“观测”,把数据质量融入到研发、协作的流程中。
2024-01-14 17:17:34 173
转载 弥补大语言模型的短板,一文读懂LangChain框架
想象一下,一个对编程完全陌生的初学者,正面临着如何与模型进行交互的诸多问题,哪怕是简单的GET或POST请求,都可能成为其开发路上的第一道门槛。而LangChain的存在恰恰能跨越这道门槛,使得LLM应用开发变得触手可及。首先,LangChain的简洁性让它脱颖而出。开发者只需要写几行代码,就能运行一个大型LLM程序,甚至快速构建一个响应式的机器人。这种简洁性意味着,无论是对于有经验的开发者还是初入此领域的新手,LangChain都能为他们进入LLM应用开发的世界铺平道路。
2024-01-11 07:45:14 167
原创 Spark 3.1.3 top 使用 Comparator 抛出 java.io.NotSerializableException 异常
这种问题一般都是对象没有序列化导致的
2023-11-20 07:47:26 237
转载 Hologres RoaringBitmap实践:千亿级画像数据秒级分析
我们团队所在的用户运营平台技术团队是一支懂用户,技术驱动的年轻队伍,团队立足体系化打造业界领先的用户增长基础设施,以媒体外投平台、ABTest平台、用户运营平台为代表的基础设施赋能用户增长,日均处理数据量千亿规模、调用QPS千万级。在用户规模达到一定量级的情况下,单一的运营策略对于用户的效果愈发有限,人群分析的能力,因此显得尤为重要,它能帮助我们发现潜在用户、找寻运营时机,为策略调整提供数据支持。
2023-11-06 08:52:24 384 1
转载 电商归因模型技术方案
我们引入电商坑位归因的概念,把每一笔的成交都归给转化路径中不同的坑位。根据坑位的曝光转化价值来评判坑位的好与坏。把宝贵的流量尽可能都引导到转化率更高的坑位,以此达到精细化运营的效果。当然有了这个坑位价值评判的机制后各个坑位的改版也能准确的评估,真正做到了数据驱动增长。
2023-11-06 07:44:38 304
转载 火山引擎VeCDP: 如何0-1构建与应用标签体系
首先介绍标签和标签体系的基本概念。火山引擎VeCDP的标签最终服务于上层的业务场景,例如营销、分析等场景。而标签体系是对标签的一种组织方式,对标签进行分类,形成一套可以长期稳定使用并且适用性较强的框架。
2023-11-04 20:43:10 365
转载 LangChain:2023年最潮大语言模型应用开发框架
LangChain 是一个帮助在应用程序中使用大型语言模型(LLM)的编程框架。与生成式 AI 中的所有东西一样,这个项目的发展也非常迅速。2022 年 10 月,它先是作为一款 Python 工具,然后在今年 2 月增加了对 TypeScript 的支持。到今年 4 月,它支持多种 JavaScript 环境,包括 Node.js、浏览器、Cloudflare Workers、Vercel/Next.js、Deno 和 Supabase Edge Functions。
2023-11-04 14:22:24 380
转载 CDP 在 Qunar 精细化运营中的建设实践
客户数据平台 CDP(Customer Data Platform)已成为精细化运营的标配工具,去哪儿旅行经过多年的建设,广泛应用于各种业务场景中,产生累计亿级别的收益,并且 CDP 项目也获得了公司年度金项奖。本主题先后受邀在CSDI SUMMIT、InfoQ QCon+、DataFun 峰会,以及 Qunar 对外直播大数据系列课中进行了分享。本文结合对外分享内容进行整理,从 CDP 的业务背景、建设实践、总结应用、未来展望四个方面进行介绍精细化运营中 CDP 的业务价值,希望对这方面感兴趣的同学有所启
2023-11-01 07:44:22 208
转载 多维分析在网易云音乐社交创新业务的应用
无论做什么,背景都是很重要的,不同背景下使用合适的技术,不仅会有较大的效率提升也能发挥更多的价值。创新业务是云音乐重要的板块之一,主要是由多样化社交为主的创新app矩阵构成,包括陌生人社交的心遇app,主打声音互动的声波,海外社交应用HeatUp等,覆盖不同社交需求的群体
2023-10-31 07:46:09 215
Android应用开发揭秘
2015-12-17
Android开发秘籍
2015-12-17
Android开发精要
2015-12-17
Android技术内幕.系统卷
2015-12-17
Android高级编程
2015-12-17
JavaEE企业应用实战-Struts2+Spring3+Hibernate整合开发
2015-12-17
Mahout算法解析与案例实战
2015-12-16
LINUX内核设计与实现
2015-12-14
重构-改善即有代码的设计
2015-12-14
算法艺术和信息学竞赛
2015-12-14
apache-mahout-distribution-0.11.1-src
2015-11-30
log4j-1.2.17
2015-11-30
apache-maven-3.3.9-bin
2015-11-30
Better bitmap performance with Roaring bitmaps
2023-03-06
美团外卖离线数仓建设实践
2023-02-19
Redis 入门指南
2017-06-02
Apache Spark源码剖析
2016-11-12
Shell脚本学习指南
2016-05-28
精通Spring
2016-02-07
Spring-Jar-4.2.4
2016-01-28
log4j所需jar包
2016-01-20
Hadoop实战中文版
2015-12-25
大型网站技术核心原理与案例分析
2015-12-25
Hive Range Between 结果错误问题
2023-02-28
Storm Trident 抛异常不重发
2018-11-23
hive SERDEPROPERTIES 实现正则过滤
2018-06-05
Flink 关于窗口Window的问题
2018-01-17
Hive 运行SQL 重定向文件 输出WARN日志
2017-06-13
Hadoop Distcp报错 队列问题
2017-01-17
Hive Join 失败
2016-11-28
Hive 查询问题
2016-09-07
Hive LOAD DATA 错误
2016-07-23
[ElasticSearch] 中文字符串精确搜索 term 搜不到结果
2016-07-05
mysql group by 统计问题
2016-06-17
大型分布式网站架构的演进
2016-05-16
ubuntu IntelliJ Idea设置快捷方式问题
2016-03-08
罗技键盘 k380 连接上 没有任何的反应?
2016-03-06
Maven archetype:generate报错
2016-01-25
Log4j问题
2016-01-16
Java Stringbuilder调用append()方法报错
2015-12-20
nosql开放性问题
2015-12-18
TA创建的收藏夹 TA关注的收藏夹
TA关注的人