╭⌒若隐_RowYet——大数据-CSDN博客

原创从 Prompt Engineering、Context Engineering到 Loop Engineering：用一个 MySQL Migration Case 讲清楚

本文通过一个MySQL数据库脚本变更修复案例，对比了三种AI工程方法：Prompt Engineering、Context Engineering和Loop Engineering。案例中，修复错误的SQL迁移脚本时，Prompt Engineering需要手动提供完整上下文；Context Engineering将项目规则固化到文件中，减少重复输入；而Loop Engineering则通过自动化流程（如GitHub Actions）实现代码生成、验证和修复的闭环。

2026-06-25 18:15:28 152

原创携手AI的组织会怎么进化

《超级组织：AI时代的企业重构与协同困境》文章通过出门问问创始人李志飞的实践案例，揭示了AI时代"超级个体"与组织协同之间的矛盾：个人能力越强，若缺乏有效协同机制，反而会造成"幽灵效率"现象，而此书，就是教你破局的指明灯。

2026-06-09 18:53:26 171

原创重生之我用Modal白嫖了GLM-5.1模型

教你一招之如何利用Modal获取免费的GLM-5.1模型

2026-04-24 16:15:21 787 2

原创利用AI祖师爷Karpathy的理念——零代码构建个人AI知识库

爷`Karpathy`的理念，零代码构建个人AI知识库，总体来说该套理念就是让`Harness`去读取资料，然后整理归档并做好索引（书籍目录），方便下次需要的时候直接找知识点，而且通过`schema.md`作为`Harness`的工作手册约束规范，让`Harness`不要越界，同时如果遇到不太懂的知识点，可以按需维护新的知识到知识库`wiki/`下，并更新索引（目录）`index.md`。

2026-04-07 22:03:49 753

原创 AI LLM&Harness上岸第一剑，先斩意中人

AI技术快速发展，以Claude Code为代表的编程助手正在改变开发模式。文章介绍了Harness与LLM的关系：LLM如赤兔马提供基础能力，Harness如马鞍增强功能。目前主流模型如GLM-5、MiniMax M2.5等已具备长上下文、递归推理等能力，而Harness则负责任务分解、状态持久化等。Claude Code通过"agentic loop"机制，能自动规划、执行和优化代码，快速搭建电商网站等应用。这预示着未来开发者将更专注于高层次设计，而AI处理具体实现。

2026-03-29 12:37:40 539

原创台上一分钟，台下十年功——AI Agent的记忆系统

文章探讨了AI Agent记忆系统的构建，借鉴《杀死一只知更鸟》中"记忆与智慧"的关系，指出记忆是智慧的基础。AI记忆分为短期记忆（对话上下文、任务状态）和长期记忆（向量数据库、知识库），二者结合实现个性化服务。短期记忆受限于上下文窗口，具有易失性；长期记忆通过检索机制持久存储。文中以LangChain的InMemoryStore为例，演示了记忆存储的三大核心操作：实例化、保存和语义检索，展示了如何为AI Agent构建类似人类的记忆系统。

2026-03-08 13:17:06 549

原创为什么《琅琊榜》海外版翻译成了《琅琊山伯爵》？

当《琅琊榜》的风吹过大洋彼岸，虽说这部剧最后取了《Nirvana in Fire》（浴火重生）的外文名，但如果这部剧要在法国上映，要取一个法国人都能共鸣的名字，那就非《The Count of Monte Langya》(琅琊山伯爵)莫属了……

2026-02-18 14:12:33 907

原创 Agent质量保证——以CEO或投资者的眼光看问题

智能体的概率性特征打破了传统QA的确定性模式，其评估需要从"以模型为中心"转向"以系统为中心"。文章提出四大评估基石：目标达成率（有效性）、运营成本（效率）、可靠性（鲁棒性）和可信度（安全对齐）。

2026-01-28 19:36:09 724

原创 Agent MCP实战——打造你的首席穿搭推荐官

翻一翻自己的衣柜，是不是每天都在为自己的穿衣打扮而发愁？接下来就让AI Agent根据你自己的衣柜内的服饰，每天根据你需要的风格推荐你的上衣，下装，鞋子，配饰等等，让你每天都和阿祖一样帅……

2026-01-16 22:37:12 760

原创 AI Agent开发实战QuickStart

通过本文的AI Agent开发实战的QuickStart，总结下来就是你不仅白嫖到了LLM，还学会了手搓第一个使用LangChain和LangGraph的AI Agent，并且还可以选择需要用穿墙术的LangSmith或白嫖的LangFuse完成对AI Agent的可观测性，看完还不学起来并邀请你的热爱AI的宝子一起来学？

2025-12-30 21:55:23 925 1

原创 AI Agent（智能体）简介

本文概述了智能体（AI Agents）的核心概念，即具备自主感知、决策与执行的闭环系统。通过对比AI、模型等概念，引入OpenAI五级量表划分发展层级：当前主流产品（如ChatGPT）处于1-2级对话阶段，第3级执行者智能体进入实验期。系统架构涵盖单一智能体（LLM+工具）及多智能体方案，以及AI Agent的应用场景覆盖服务业、医疗等多领域举例。

2025-12-21 00:00:48 1008

原创数据产品——聊一聊数据埋点体系

数据埋点作为数字化运营的核心技术体系，通过收集用户行为数据（如曝光、点击等）实现精细化运营和个性化营销。埋点类型包括Web端、App端、服务端及新兴的实体店端，其中Web和App端应用最广。埋点管理需明确目标数据（用户信息、页面元素、事件），制定规范流程，并建立元数据管理体系。企业可选择自研或采购埋点工具，需平衡开发成本与业务需求。埋点平台应包含元数据管理、测试工具、监控及分析功能，以数据驱动业务增长。技术实施需结合具体场景，确保数据价值高效转化。

2025-10-26 23:29:45 1022

原创 AI赋能互联网广告变现的商业模式

本文探讨了数据科学与人工智能如何赋能互联网广告变现。文章指出，广告是互联网公司最主要的变现手段之一，并展示了国内互联网巨头近年来的广告收入排名。通过分析广告位排序原理和算法模型（包括训练数据准备、特征工程和预测流程），揭示了数据科学在精准营销中的应用。文章还介绍了领域专家、数据科学家和AI专家在广告算法中的协作关系。最后展望了AI Agent技术对广告营销的潜在影响，指出其可能颠覆传统广告竞价模式，实现"一客一策"的精准营销。

2025-09-23 19:23:02 1247

原创数据科学家是怎么了解你的——借助大语言模型快速解读用户（语音/文字）的购买信号

本文介绍了如何利用大语言模型（LLM）快速分析用户对话中的购买信号，替代传统NLP解决方案的复杂流程。传统方法依赖文本预处理、特征提取和分类模型，存在工程繁琐、泛化能力弱等问题。而通过FastGPT平台，用户可轻松构建对话分析工作流，只需输入提示词即可自动评估对话质量、客服专业性、客户满意度及购买意向等关键指标，并输出结构化JSON结果。文章演示了从创建Workflow到API调用的完整流程，展示了LLM在电商、客服等场景下的高效语义理解能力。该方法无需复杂特征工程，显著降低了用户意图分析的技术门槛。

2025-09-16 21:13:52 760

原创零售消费企业的数字化增长实践，2025新版下载

此次，帆软推出《零售消费企业数字化增长实践》案例集2.0，分享波司登、周大生、潮宏基、维维股份、恒安集团、云鲸、交个朋友等众多企业数字化实战案例，致力于与更多消费零售企业一起，实现业务变革与增长！

2025-09-04 13:28:57 588

原创数据科学家是怎么了解你的——集成学习（XGBoost、LightGBM）完结篇

通俗的讲解了集成学习里面XGBoost算法和LightGBM算法，完结了集成学习里面的所有算法，即使机器学习的入门，也是开启其他AI的新起步。

2025-09-03 14:40:37 889

原创 AI领域偶像大佬们在2025世界人工智能大会上聊了些什么

2025年07月26日上午，2025世界人工智能大会（WAIC）在上海开幕，毕竟国内乃至全球最高规格的AI领域行业盛宴之一，WAIC 2025开幕主论坛大腕云集，一起来看看这些大佬都有谁，并且这些大佬又传递了哪些信号呢？

2025-07-28 00:50:22 1713

原创数据科学家是怎么了解你的——AdaBoost、BDT、GBDT

通过上篇，数据科学家是怎么了解你的——决策树&随机森林，介绍了机器学习最基础的决策树和随机森林，此篇文章重在介绍机器学习中的集成学习的Boosting算法中的AdaBoost、BDT、GBDT。

2025-07-27 19:35:06 1346

原创数据科学家是怎么了解你的——决策树&随机森林

摘要：本文探讨了如何利用决策树和随机森林算法解决用户行为预测问题。通过分类（如判断用户是否购买商品）和回归（如预测房价）两类监督学习任务，介绍了信息熵、条件熵、信息增益和基尼指数等关键概念。以天气数据预测篮球活动为例，详细演示了决策树的构建过程，包括节点分割、信息增益计算及基尼不纯度分析。最终生成的决策树模型可用于预测新条件下的用户行为，为推荐系统和业务决策提供支持。

2025-07-22 20:49:30 921

原创从YU7的爆火再探小米的产品哲学

汽车还是那个汽车，不可否认小米的营销确实冠绝古今，毕竟东哥对雷总评价的那句话的含金量还在上升，然后产品终究还是那个产品，好的产品才是从0到1的那个1，有了好的产品，营销、品牌、生态的竹林效应、军事化管理等等都是后面的那个0，没有1，后面的0就显得空洞了，那小米汽车的爆火，究竟给我们传达了哪些小米的产品哲学呢？

2025-07-07 01:01:25 1711

转载干货下载丨《企业级BI平台白皮书》，构建企业敏捷经营壁垒！

观远数据发布《企业级BI平台白皮书》，针对规模型企业数字化转型的独特挑战，提出"五力模型"解决方案。白皮书基于400+企业实践经验，分析规模化企业BI能力需求，并通过500强银行、连锁品牌等案例，分享智能决策与组织升级方法论。前瞻性提出未来"四化"企业特征，为企业提供数字化运营策略支持。点击链接下载完整白皮书获取详细内容。

2025-06-23 14:05:59 141

原创从麦肯锡的视角解读全球企业数字化

因一直以来从事企业数字化和人工智能转型的相关工作，前段时间中信出版社的老师寄来一本《麦肯锡讲全球数字化》的书籍，让我帮忙推广推广，当然推广不好说啦，毕竟本人的影响力有限，但出于委托，还是很认真的读完了此版巨作，其中的收益，也正好借此机会有幸地分享给大家！

2025-05-27 01:27:15 1618

原创构建企业级数据的愿景、目标与规划历程

伴随着数字科技、通信、人工智能的发展，很多企业组织都已经意识到，数据已经慢慢演变成为企业的资产，冠以数据是企业的“信息货币”、“生命之血”，甚至“新的石油”。企业不仅依托数据开展业务，也从数据中分析和挖掘出更多的价值。但从数据中获取价值并非凭空产生，而是需要有愿景、目标、规划、协作、落地等来保障，当然也需要企业的管理和领导力，此篇则作为总览篇章专门来讲述构建企业数据的愿景、目标与规划。

2025-03-21 21:04:04 1119

原创后智能体时代的LLM和Agent

随着`OpenAI`、`Deepseek`、`Manus`等等智能体的爆火，跟大家一起聊一聊关于AI重塑的哲学体系，关于AI大模型体系的认知，关于AI大模型体系的畅想，关于人和AI大模型体系的共处的话题。

2025-03-08 22:15:19 1483

原创实时推荐算法的架构

偷得浮生半日闲，跟大家一起聊一聊大家最喜欢的实时推荐算法架构。

2024-08-11 18:28:46 2055

原创浅谈用户标签/画像系统构建

本文主要已专业的角度，讲述如何构建用户标签及用户画像。

2024-07-21 16:52:35 4633

原创数据架构——2024你有什么规划？

2024你有什么规划？

2024-02-20 23:38:15 1499

原创大数据从入门到放弃——浅谈数据架构的前世今生

随着云时代的发展，大数据的使用变得越来越便捷，数据也变得越来越重要，你可以说一个企业暂时没有从数据中挖掘出价值，但是一个企业绝对不可能离开数据工作，大数据对于很多的人而言，终究像是一位神秘女神，一睹她芳泽的人把她传的神乎其神，导致最终的听者都觉得她无所不能，特别在最近很火的AI生成ChatGPT的带领下，仿佛数据已经是IT技术界的虚空黑洞，不仅可能吞噬一切，而且所有解释不了的东西，最终都可以从中得到答案，尽管博主也觉得ChatGPT 的充满潜力和希望，但是博主今天还是更想跟大家聊聊数据本身的发展规律……

2023-08-20 19:15:13 1048

原创亚马逊云科技——户外广告传媒行业数字化转型的摆渡者

本文就亚马逊云科技在IoT物联网、数据仓库、数据湖、数据可视化等方面的如何助力户外广告传媒行业数字化转型的问题上展开探讨。

2022-05-19 12:24:50 3661

原创 idea for mac 最全快捷键整理

最强IDEA关于Mac版本的常用快捷键

2022-05-06 11:03:10 1898

原创 Apache Flink从入门到放弃——快速上手（Java版）（二）

以经典的大数据word count统计为例，讲述传统Apache Flink DataSet API（批处理API）和新的流式DataStream API的两种Java代码的实现，从代码动手开始揭开Apache Flink的神秘面纱。

2022-05-04 00:27:11 1544

原创 Apache Flink从入门到放弃——Flink简介（一）

Apache Flink是一个分布式大数据计算引擎，可以对有界的数据和无界的数据进行有状态的计算，可部署在各种集群环境中，对各种大小数据规模进行快速计算，本章节主要介绍下Flink的历史和由来以及框架基础。............

2022-05-03 13:12:20 8686 1

原创飞算（SoFlu）软件机器人——人人都是全栈架构师

SoFlu(飞算)软件机器人是全球首款面向微服务架构设计和最佳实践的软件项目开发智能平台，平台以Java为主要开发语言，包含（后端）全自动开平台、（前端）全自动开发平台、全自动测试平台、全自动运维平台的项目全栈解决方案；她全程参数化的配置填写，拖拉拽的界面设计使得一人就能全栈解决后端服务到前端开发，以及后续的测试部署，甚至机器资源的运维监控与服务，因为她的存在，人人都是全栈架构师。

2022-04-26 00:25:56 8070 2

原创 JavaSE基础——异常机制

曾有人说过：“一个程序项目内30%的代码就能实现功能，剩下70%的代码都在检查异常、增加约束……”本文就总结下Java的异常机制。

2022-04-16 00:54:47 762

原创 Java面向对象程序的执行顺序及内存分析

Java面向对象程序的执行顺序及数据在内存中的状态变化是怎么样的呢？本文就带你领略一番。

2022-04-13 00:23:12 708

原创 brew结合iTerm2花式玩转MacOS软件管理的终端指令

为什么你的Mac终端能语法高亮、高端智能提示、风骚的指定风格、有趣的fuck插件(shell指令报错怎么办？fuck一下！)，还有张陌上人如玉，公子世无双的嵩嵩（老婆最爱）的背景板等等，因为我利用国内镜像安装brew，结合iTerm2花式玩转MacOS的软件管理呀，想学呀？我教你呀！

2022-03-29 00:50:51 3696

原创 Linux基础篇——ftp的安装与配置

为啥ftp？安装ftp主要是还为了传输文件，但是我有一台服务器或者计算机，直接登录进去获取文件不行吗？为啥还要多此一举用ftp呢？原因是用ftp的话，它的会话是持久的，只有一次认证过程，传输多个文件都是使用同一个连接。因为 ftp 就是为远程文件交互而设计的，更适；而且有些时候只是为了单纯让你做一个文件传输，运维未必会给你一台服务器，这个时候往往只是给你搭建ftp服务。

2022-03-28 00:09:14 27616 18

原创大数据之路之Linux篇

为什么要学习Linux1. 工作需要，从事IT工作或多或少都要设计Linux；2. 迟早老子会有钱，要买一台苹果Mac坐在星巴克追剧，那你会发现，Mac的命令行模式竟然和Linux惊人的相识，我每次用到Mac命令行操作都是直接网上直接copy的，不知道啥意思，这是我一个做设计的朋友跟我吐槽的，嘿嘿，就怕哪天你copy了个`rm -rf *`3.每次看美国大片，发现那些电脑高手都在一个黑框框里啪啦啪啦的敲键盘，他们在敲啥呢？想不想成为他们一样的高手？

2022-03-27 14:13:34 6162

原创 Linux基础篇——Linux进程、服务管理

程序（program）、进程（process）、守护进程（daemon）与服务（service）的之间是什么关系？简直一个头两个大，服务器之间的各个进程、服务又是怎么管理的呢？本篇文章，带你走进Linux进程（process）和服务（service）的世界。

2022-03-11 19:23:21 4440

原创项目实战——参数配置化Spark将Hive表的数据写入需要用户名密码认证的ElasticSearch（Java版本）

如何优雅的将Hive的数据写入ES，每次新增一张表是否新增一个配置文件就能实现呢？当然可以，本篇文章就带你走进这个优雅的ETL Jar包；

2022-03-03 17:49:41 3555 1

机器学习样例数据-不同员工的表现和是否离职的关系

机器学习样例数据，文件内是不同员工的表现和是否离职的关系，格式形式为csv

2025-07-22

Apache Flink快速上手word count项目（Java版）

Apache Flink作为流式计算的佼佼者，如何快速入手一个Flink项目呢，本例就以经典的大数据word count统计为例，讲述传统Apache Flink DataSet API（批处理API）和新的流式DataStream API的两种实现，从代码动手开始揭开Apache Flink的神秘面纱，项目包含以下内容： 1. 环境准备和创建项目 1.1 软件准备及版本 1.2 IDEA下创建Java项目FlinkTutorial 2. DataSet API 批处理实现word count 3. DataStream API 流处理实现word count 3.1 有界的流处理 3.2 无界的流处理

2022-05-04

hive常见的优化方案ppt

涉及到Hive优化相关的一些常用技巧，当Hive出现数据倾斜时或者负载不均衡等情况，往往会出现耗久，甚至跑不出结果的尴尬场面，这个时候如果计算资源监控显示有没有完全饱和利用，就需要涉及到优化了；

2020-12-15

数据库原理PPT课件.zip

共四章内容，适合数据库初学者，数据库PPT教学；分别为第一章：关系代数第二章：SQL语言第三章：关系数据理论第四章：数据库设计

2020-05-29

城市GDP_总人口数据_清洗后(截至2019).xlsx

截至2019年中国各大城市GDP，人口数统计数据整理；数据来源于百度百科，国家统计局等公开数据，个别城市上报的比较慢，只能采用距离2019年更近的年份数据，作为城市GDP，人工的统计标签。

2020-07-20

项目实战——钉钉报警校验ElasticSearch和Hive数据仓库内的数据质量（Java版本）

此篇文章主要选取关键性指标，数据校验数据源Hive和目标ES内的数据是否一致；因为你不知道将Hive的数据导入到了ElasticSearch后，数据量是否准确，所以需要钉钉报警校验ElasticSearch和Hive数据仓库内的数据质量，注意，这个项目打包后，最好另起一个进程调用，并且开始时间为文章1或者2最大预估的结束时间后的10分钟后调用，这样可以校验两种情形： 1.ETL项目被调度了，但是造成了数据异常，可以捕捉到； 2.ETL项目压根就没起来，即超时了，造成了数据异常，亦可被捕捉！

2020-10-24

ElasticSearch常用查询的Java实现

ElasticSearch查询term，terms，match，id查询 ElasticSearch查询refix，fuzzy，wildcard，range，regexp查询 ElasticSearch查询scroll，delete-by-query，bool，boosting，filter，highlight查询 ElasticSearch查询cardinality，range，extended_stats聚合统计aggregations查询 ElasticSearch查询geo_distance，geo_bounding_box，geo_polygon地图检索geo查询的Java实现

2020-10-12

hive-2.3.5配置文件.rar

Hive的配置，选定一个Hive的master，其他的节点为slaves，master和slaves的配置略有不同，不是完全照搬，准确的来说，应该是只有一个节点是Hive的服务器节点负责和元数据库以及集群内部通信，其他的Hive节点其实是装的client，这些节点在访问元数据库时，先会内部跳转到Hive服务器的节点，该包命名成了hive-site_master.xml和hive-site_client.xml以区分，使用的时候请注意改回名字hive-site.xml。

2020-05-17

项目实战——Spark将Hive表的数据写入ElasticSearch（Java版本）

项目实战：Java一站式解决Hive内用Spark取数，新建ES索引，灌入数据，并且采用ES别名机制，实现ES数据更新的无缝更新，底层采用Spark计算框架，数据较快。

2020-10-24

elasticsearch-HQ.zip

ElasticHQ 是一个基于浏览器的直观和功能强大的 ElasticSearch 管理和监控工具，它提供了对 ElasticSearch 的实时监控、全集群管理、搜索和查询等功能。 ElasticHQ 主要优点如下：能够实时监控ElasticSearch的集群和集群节点能够管理索引、映射、分片、别名和节点能够查询一个或多个索引具有REST风格的API，无需繁琐的JSON的数据格式完全基于Web浏览器，无需安装或者下载任何软件针对手机、平板电脑和其他小屏幕的设备进行了优化具有易于使用和吸引力的用户界面免费

2020-08-21

MobaXterm_Personal_1

一款免安装的远程terminal桌面管理软件，适合在windows平台访问linux服务器等功能，可以手动将windows文件拖入linux目录下，安全、方便；x-shell有的功能都有，而且免费！

2018-03-09

博客插入gif文件失败？

2021-07-23

TA创建的收藏夹 TA关注的收藏夹

TA关注的人