LLMs之Tool:screenpipe(OCR+RAG)的简介、安装和使用方法、案例应用

LLMs之Tool:screenpipe(OCR+RAG)的简介、安装和使用方法、案例应用

目录

Screenpipe 简介

1、特点

2、核心原理:OCR+RAG

3、更新

Screenpipe 安装和使用方法

T1、命令行界面 (CLI)

T2、付费桌面应用

T3、免费桌面应用 (自建)

T4、Rust 或 WASM 库

Screenpipe 案例应用


Screenpipe 简介

2024年7月,Screenpipe 是一个由 rewind.ai 和 cursor.com 联合开发的 AI 助理,它能够进行 24/7 的屏幕和语音录制,旨在为超级智能时代做好数据准备。其目标是让用户拥有所有上下文信息的 AI 助手。项目标语为“recording reality, one pixel at a time”。 Screenpipe 在 GitHub 上非常活跃,曾多次荣登趋势榜首,并获得了 Founders, Inc 的支持。 它还拥有一个插件系统,允许用户创建和分享自定义插件(pipes)。
Screenpipe 提供了一个全面的数据采集和 AI 辅助工具,其应用范围广泛,有待于用户进一步探索和开发。 项目本身积极响应社区反馈,鼓励用户贡献代码和反馈问题。
Screenpipe 通过本地运行、全方位数据捕获、强大的AI处理能力和可扩展的插件系统,为用户提供了一个高效、私密且功能强大的个人AI助手。 其目标是帮助用户提高生产力,并更好地管理和利用自己的数字生活数据。

GitHub地址:GitHub - mediar-ai/screenpipe: rewind.ai x cursor.com = your AI assistant that has all the context. 24/7 screen & voice recording for the age of super intelligence. get your data ready or be left behind

官网:screenpipe

1、特点

Screenpipe是一个跨平台的开源开发工具,它在用户设备本地运行,能够捕获所有桌面活动,包括音频、屏幕和UI交互。其核心特点可以概括为以下几点:

>> 全方位记录:记录所有桌面活动,包括屏幕录制、音频录制以及用户交互。

>> 强大的搜索和聊天功能:能够对记录的全部数字生活进行毫秒级的搜索,并支持与搜索结果进行聊天互动。 提供一个playground,允许用户使用演示视频中的样本数据进行搜索和聊天。

>> 转录和总结:能够完美地记录和总结所有通话和会议内容,并且可以在离线状态下工作。

自动化功能:可以将会议内容转化为行动项,并自动更新Notion、Slack和CRM等应用。

>> 数据私有性:100% 保护用户数据隐私,所有数据在本地处理,并采用军用级安全措施。

>> 可扩展性:通过名为“pipes”的插件系统,用户可以添加自定义AI插件,扩展Screenpipe的功能,实现个性化需求。

>> 多平台支持:支持跨平台使用。

2、核心原理:OCR+RAG

Screenpipe 的核心原理是基于用户设备本地运行的程序,实时捕获音频、屏幕和UI交互等数据。这些数据被存储在本地,并通过内置的AI模型进行处理,实现转录、总结、搜索和自动化等功能。 其插件系统(pipes)允许用户扩展其功能,通过自定义代码来处理捕获的数据,从而实现更个性化的应用。 Screenpipe 的一个关键优势在于其数据私密性,所有处理都在本地完成,避免了数据上传到云端带来的隐私风险。

这张图描述了Screenpipe 系统的架构和工作流程,它可以被分解成四个主要阶段:

1. 输入源 (INPUT SOURCE):

  • 屏幕 (Screen): Screenpipe 能够捕获整个屏幕、单个窗口或多个屏幕的活动,以帧为单位记录屏幕历史。
  • 音频和麦克风 (Audio & Mic): 系统同时记录音频信息,用于后续的转录和分析。

2. 数据提取和收集 (DATA EXTRACTION, COLLECTION):

  • SQL 数据库和嵌入 (SQL DB Embeddings): 捕获的屏幕和音频数据会被存储到 SQL 数据库中,并生成相应的嵌入向量 (Embeddings),用于后续的向量搜索。
  • 带时间戳的屏幕文本 (Timestamped screen text): 从屏幕截图中提取文本信息,并记录其出现的时间戳。
  • 用户行为历史 (History of user actions): 记录用户与屏幕交互的所有操作,例如鼠标点击、键盘输入等,并记录时间戳。
  • 带时间戳的音频转录 (Timestamped Audio transcription): 对录制的音频进行转录,并记录时间戳。

3. 查询、分析和后处理 (QUERY, ANALYZE, POST-PROCESS):

  • 索引和向量搜索 (Indexing Vector search): 利用嵌入向量进行高效的向量搜索,快速检索相关信息。
  • 关键词搜索 (Search keywords): 支持基于关键词的文本搜索。
  • 语义搜索 (Semantic search): 能够理解查询的语义,返回更准确的结果,不仅仅局限于关键词匹配。
  • 分类、标记、标签和元数据获取 (Classify, Label, Tag, Get Metadata): 对数据进行分类、标记和添加元数据,方便后续的分析和使用。

4. 前端 (FRONT-END):

  • Web 应用或桌面工具栏 (Web APP or Desktop Toolbar): 用户可以通过 Web 应用或桌面工具栏与系统进行交互,进行搜索、查看总结和指标等操作。
  • 使用 LLM 搜索历史 (Search history with LLM): 利用大型语言模型 (LLM) 对历史记录进行更智能的搜索。
  • 创建/查看摘要和指标 (Create/View summaries, metrics): 系统能够生成摘要和各种指标,方便用户理解和分析数据。
  • 触发基于事件的动作 (Trigger event-based actions): 可以根据特定事件触发预定义的动作,实现自动化操作。

总而言之,Screenpipe 通过整合屏幕录制、音频录制、数据库管理、向量搜索和大型语言模型等技术,构建了一个强大的数据记录、分析和检索系统,能够帮助用户记录、理解和利用其数字生活中的信息。 其核心在于将不同类型的数据整合起来,并通过多种搜索方式进行检索,最终以易于理解的方式呈现给用户。

3、更新

Screenpipe 安装和使用方法

Screenpipe 提供多种安装方式,以满足不同用户的需求:

T1、命令行界面 (CLI)

适用于技术用户,提供直接的命令行操作方式。

T2、付费桌面应用

提供一年更新、优先支持和优先功能。可以通过提交 PR(示例已提供)或在线分享 Screenpipe 来获得一年的桌面应用许可证。

T3、免费桌面应用 (自建)

Screenpipe 完全开源,用户可以自行构建免费的桌面应用,但需要自行编译。

T4、Rust 或 WASM 库

可作为 Rust 或 WASM 库使用,通过 websocket 流式传输帧和 OCR 数据到用户的应用程序。

Screenpipe 案例应用

提供的文本中没有具体列举 Screenpipe 的案例应用,但可以从其功能推断出一些潜在的应用场景:

AI 训练数据收集:Screenpipe 可以收集大量的屏幕和语音数据,用于训练各种 AI 模型,例如对话模型、图像识别模型等。

软件开发辅助:通过记录屏幕操作和语音指令,Screenpipe 可以帮助开发者记录开发过程,辅助调试和代码审查。

用户行为分析:Screenpipe 收集的数据可以用于分析用户行为,改进软件设计和用户体验。

远程协助和培训:Screenpipe 可以记录远程协助或培训过程,方便后续回顾和改进。

### minimind LLMs 源码解读分析 #### full_sft.py 文件解析 `full_sft.py` 是一个用于实现基于 PyTorch 的分布式混合精度语言模型全参数训练框架的脚本[^1]。该文件主要关注于如何高效地利用硬件资源,在大规模数据集上进行高效的训练。 为了支持分布式训练,此模块引入了 `torch.distributed.launch` 工具来启动多进程环境,并通过配置 GPU 设备来进行并行计算。对于优化器的选择,默认采用 AdamW 来更新权重参数;同时为了加速收敛过程以及提高数值稳定性,还应用了梯度裁剪技术防止梯度过大造成不稳定现象发生。 此外,考虑到现代深度学习任务中常见的内存瓶颈问题,这里实现了自动混合精度机制 (Automatic Mixed Precision, AMP),它允许网络中的某些部分以较低位宽的数据类型运行从而节省显存空间而不影响最终性能表现。 ```python from torch.cuda.amp import GradScaler, autocast scaler = GradScaler() with autocast(): outputs = model(inputs) loss.backward() scaler.step(optimizer) scaler.update() ``` #### eval.py 文件解析 另一方面,《eval.py》则专注于构建一个可以与用户实时互动交流的人工智能系统[^2]。具体来说就是创建了一个命令行界面(Command Line Interface, CLI), 让使用者能够输入自然语言查询语句得到相应的回复结果。 在这个过程中涉及到的关键组件包括但不限于: - **Tokenizer**: 负责将原始文本转换成 token 序列以便送入 Transformer 编解码架构处理; - **Model Inference Pipeline**: 定义好推理流程之后就可以调用预训练好的 checkpoint 进行预测操作了; - **Response Generation Logic**: 根据上下文信息动态调整生成策略确保对话连贯性逻辑一致性. ```python tokenizer = AutoTokenizer.from_pretrained('pretrained_model_path') model = AutoModelForCausalLM.from_pretrained('pretrained_model_path') input_text = "你好" inputs = tokenizer(input_text, return_tensors="pt").to(device) outputs = model.generate(**inputs, max_length=50) response = tokenizer.decode(outputs[0], skip_special_tokens=True) print(response) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一个处女座的程序猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值