
大模型
文章平均质量分 87
以ChatGPT 为代表的真正的人工智能时代来临了,ChatGPT一问世就迅速席卷了国内外整个科技行业,希望通过此专栏跑步迎接AI爆发的时代,AI就像工业革命一样,会掀起新一轮的浪潮,目前大模型百花齐放,以前所未见的速度渗透到各行各业,目前的应用主要分为对传统行业赋能降本增效,新行业形成新的增长点
不二人生
刀光剑影江湖情,摧枯拉朽浪滔滔。功名利禄拂衣去,山高水远路迢迢。一个上得了厅堂下得了厨房、左手写诗右手写词的男人
展开
-
大模型——Crawl4AI使用JsonCssExtractionStrategy进行结构化数据提取
JsonCssExtractionStrategy是Crawl4AI的一项强大功能,允许用户使用CSS选择器从网页中提取结构化数据。这种方法特别适用于需要从一致的HTML结构中提取特定数据点的情况,例如表格或重复的元素。重复元素的基础CSS选择器从每个元素中提取的字段,每个字段都有自己的CSS选择器这种策略的执行速度快且高效,因为它不依赖于外部服务(如大语言模型)进行数据提取。原创 2025-05-16 07:57:12 · 179 阅读 · 0 评论 -
大模型——用Qwen3+MCPs实现AI自动发布小红书笔记!支持图文和视频
在Cherry Studio MCP服务器里配置文生图MCP-server,魔搭上目前有几个支持生图的MCP,比如ModelScope-Image-Generation-MCP和MiniMax-MCP,两者都在魔搭的云端资源上部署,可以支持SSE的方式调用。你只要在Cherry Studio的MCP服务器页面,填入 ModelScope的 API令牌把服务器一键同步过来,就可以在Cherry Studio上使用所有魔搭已经托管的MCP服务了,非常的方便。最重要的是,这些服务完全不需要手动一个个的配置!原创 2025-05-16 07:55:57 · 205 阅读 · 0 评论 -
大模型——Crawl4AI为 LLM 和 RAG 准备高质量网页数据
传统网络爬虫框架功能多样,但在处理数据时常需要额外进行清洗与格式化,这使得它们与大语言模型(LLM)的集成相对复杂。许多工具的输出(如原始HTML或未结构化的JSON)包含大量噪声,不适合直接用于检索增强生成(RAG)等场景,因为这会降低LLM处理的效率和准确性。Crawl4AI 提供了一种不同的解决方案。它专注于直接生成干净、结构化的Markdown格式内容。这种格式保留了原文的语义结构(如标题、列表、代码块),同时智能地去除了导航、广告、页脚等无关元素,非常适合作为LLM的输入或用于构建高质量的。原创 2025-05-13 21:27:15 · 166 阅读 · 0 评论 -
大模型—— FastGPT 知识库无缝集成到 n8n 工作流 (基于 MCP 协议)
在讨论这类低代码/无代码自动化工具时,一个常见的问题是:为什么不直接用代码实现?对于熟悉编程的开发者来说,用代码似乎更直接、更可控。确实,n8n 这类工具存在一定的学习曲线,初期上手可能需要投入一些时间。然而,一旦熟练掌握,其构建和迭代工作流的效率往往远超传统代码开发,特别是在涉及集成多个 API 和服务的场景下。n8n 强大的节点生态和社区支持能够满足从简单到复杂的各种自动化需求,让想法快速落地。当然,对于需要高度定制、极致性能或涉及复杂底层逻辑的企业级项目,纯代码开发仍然是必要的。原创 2025-05-13 21:23:57 · 420 阅读 · 0 评论 -
大模型——MiMo:高效数学推理与代码生成的小型开源模型
MiMo 是小米公司开发的一个开源大语言模型项目,专注于数学推理和代码生成。核心产品是 MiMo-7B 系列模型,包含基础模型 (Base)、监督微调模型 (SFT)、从基础模型训练的强化学习模型 (RL-Zero) 和从 SFT 模型训练的强化学习模型 (RL)。这些 70 亿参数模型通过优化预训练数据、多重令牌预测 (MTP) 和强化学习,展现出媲美更大模型的推理能力。MiMo-7B-RL 在数学和代码任务中性能突出,可匹敌 OpenAI o1-mini。模型支持vLLM。原创 2025-05-09 07:56:30 · 201 阅读 · 0 评论 -
大模型——Step1X-Edit:自然语言指令编辑图像的开源工具
Step1X-Edit 是一个开源图像编辑框架,由 Stepfun AI 团队开发,托管于 GitHub。它结合多模态大语言模型(Qwen-VL)和扩散变换器(DiT),让用户通过简单的自然语言指令编辑图像,例如更改背景、移除物体或转换风格。项目于 2025 年 4 月 25 日发布,性能接近闭源模型如 GPT-4o 和2 Flash。Step1X-Edit 提供模型权重、推理代码和 GEdit-Bench 基准测试,支持广泛的编辑场景。原创 2025-05-09 07:53:40 · 183 阅读 · 0 评论 -
大模型——Trae IDE 指南:轻松配置自定义 AI 规则 (Trae Rules)
Trae Rules 是一项强大的功能,它允许开发团队或个人开发者自定义并强制 AI 在代码生成、解释或修改时遵循特定的代码风格和最佳实践。设想一个常见情景:开发者在使用 AI 进行编程辅助时,可能需要反复向 AI强调相同的指令,例如代码的语言风格、项目必须遵循的框架约束、注释的详细程度与格式,或是需要遵守的安全合规条例等。Trae Rules 功能通过为 AI 预先设定这些行为规范,使得 AI 在每次响应时都能自动“读取”并遵循这些预设规则。原创 2025-05-09 07:50:09 · 283 阅读 · 0 评论 -
大模型——Trae实战创建一个MCP Server
从个人体验下来的感觉,对比 Deepseek v3 和 r1 的模型,Builder with MCP这里的执行,选择 Doubao-1.5-pro 效果更好,豆包对关联的 MCP Server 和对应的 Tools 的理解和使用更准确,而 Deepseek 有编码偏向性而忽略去使用可用的 MCP Server。,且 Agent with MCP 的设计,可以同时创建多个场景下的 Agent,并关联不同 MCP Server,免去了其他 MCP Client 需要根据任务不时的去增删服务的繁琐操作。原创 2025-05-07 07:59:58 · 651 阅读 · 0 评论 -
大模型——GraphRAG基于知识图谱+大模型技术构建的AI知识库系统
AI知识库系统是一款基于大语言模型和RAG技术的知识库管理系统,适用于智能客服、企业内部知识库、学术研究与教育等场景。它支持文档直传、自动文本拆分与向量化,结合RAG减少模型“幻觉”,提供精准智能问答。系统支持多类别语料的高效收集、分类、存储与检索,采用知识图谱优化数据组织和检索精度,通过模块化、层次化图结构设计解决数据管理挑战,确保智能、灵活的知识管理和问答体验。问答对话、智能体管理、知识库、资源预览、资源编目、图像识别、OCR识别、智能分段、网页爬虫、知识图谱、本体构建、社区摘要、模型服务管理等。原创 2025-05-06 18:36:03 · 305 阅读 · 0 评论 -
大模型——Cherry Studio配置MCP服务全流程解析:让AI自动调用工具处理任务
最近 AI 领域真是隔几天就有一个新热度,随着越来越多的使用 MCP 制作的 Agent 产品出现,MCP 这个新名词也频繁刷屏,有着大火的趋势,那么什么是 MCP 呢?MCP 是一种接口协议,由 AI 大模型公司 Anthropic 在 2024 年 11 月推出,它的全称是 Model Context Protocol,即模型上下文协议!它是连接 API 和大模型的桥梁,通过 MCP,我们可以让 AI 模型能够用一种通用的语言和各种不同的工具与服务进行交流,比如浏览器,Excel 表格,网页截图等等。原创 2025-05-06 13:20:28 · 67 阅读 · 0 评论 -
大模型——模型上下文提供者(MCP)如何赋能AI智能体
模型上下文提供者(MCP)作为AI系统中的智能调度层,通过动态选择与用户请求相关的工具,显著提高了AI助手的效率和准确性。它不仅减少了提示词大小,还提高了模型响应速度和决策质量。随着AI工具生态系统的不断扩大,MCP的重要性将越来越突出,成为构建高效AI系统的关键组件。原创 2025-05-02 10:22:03 · 543 阅读 · 0 评论 -
大模型——开源笔记软件终极对比:隐私、协作、知识管理,一篇文章搞定
开源笔记软件的核心价值在于数据主权与可定制性,但也需权衡功能成熟度与技术门槛。建议读者根据实际需求选择 2-3 款工具试用,再结合自身需求选择一款合适的工具。隐私安全Joplin和适合跨平台加密场景,前者灵活同步,后者极简设计。Turtl仅推荐离线存储高度敏感信息。知识管理Logseq和Trilium适合构建知识网络,前者学术研究,后者技术用户。思源笔记中文友好,但需权衡付费同步与性能问题。团队协作Focalboard和AppFlowy适合轻量级团队管理,前者看板协作,后者数据库管理。原创 2025-05-02 10:12:15 · 75 阅读 · 0 评论 -
大模型——使用 StarRocks 作为向量数据库
通过上述步骤,用户可以成功将 StarRocks 用作向量数据库,加载文档,进行标记化,以及构建一个可以进行提问的系统。这样的设置不仅提高了数据处理的效率,还能够实现快速的检索和分析功能。原创 2025-04-30 08:23:54 · 388 阅读 · 0 评论 -
大模型——使用coze搭建基于DeepSeek大模型的智能体实现智能客服问答
扣子(coze)是新一代 AI 应用开发平台。无论你是否有编程基础,都可以在扣子上快速搭建基于大模型的各类 AI 应用,并将 AI 应用发布到各个社交平台、通讯软件,也可以通过 API 或 SDK 将 AI 应用集成到你的业务系统中。借助扣子提供的可视化设计与编排工具,你可以通过零代码或低代码的方式,快速搭建出基于大模型的各类 AI 项目,满足个性化需求、实现商业价值。点击下方+添加节点,添加一个大模型节点,进行如下连接。单击大模型节点,在右侧可以设置该节点相关信息,首先改名成总结大模型。原创 2025-04-29 21:13:16 · 379 阅读 · 0 评论 -
大模型——在本地计算机上利用AnythingLLM构建DeepSeek大模型本地知识库
访问官网下载Ollama安装包,或者可以访问百度网盘地址:https://pan.baidu.com/s/1kOcyzb3QGMnJOoIVXka4NA?pwd=ziyu ,提取码是ziyu,找到安装包,双击安装包安装界面如下图所示:下载完成后双击打开安装程序,点击Install即可一键安装,安装完成后程序会自动退出。原创 2025-04-29 08:20:28 · 41 阅读 · 0 评论 -
大模型——Spring.new快速构建AI驱动的定制化商业应用
Spring.new 是一个基于人工智能的在线平台,专注于帮助营销经理和产品经理快速构建定制化工作流和小型应用。它通过自然语言输入,让用户描述需求,自动生成连接 Notion、Airtable、Slack 等工具的工作流或应用,例如将 Figma 设计转为可交互界面,或创建轻量级 CRM 系统。平台无需用户具备编程经验,操作简单,适合快速迭代的团队。Spring.new 强调即时性,号称从需求到成品只需几分钟,特别适合需要快速上线营销活动或产品功能的用户。原创 2025-04-27 21:02:31 · 125 阅读 · 0 评论 -
大模型——Suna集成浏览器操作与数据分析的智能代理
Suna 是 Kortix AI 开发的一个开源通用 AI 代理,托管在 GitHub 上,基于 Apache 2.0 许可证,允许用户免费下载、修改和自托管。它通过自然语言对话帮助用户完成复杂任务,如网页浏览、文件管理、数据抓取和网站部署。Suna 采用模块化架构,包括 Python/FastAPI 后端、Next.js/React 前端、Supabase 数据库和 Daytona 沙盒,确保安全性和灵活性。它支持与 OpenAI、Anthropic 等大语言模型集成,并通过。原创 2025-04-27 21:00:30 · 370 阅读 · 0 评论 -
大模型——什么是 Vibe Coding?从零开始学习 AI 辅助编程
生成式 人工智能 的指数级增长正不断重塑各个行业,软件开发领域也不例外。大约在 2025 年初,一股源自美国硅谷的新思潮开始引起关注:开发者似乎可以借助 AI 工具,在几乎不直接编写代码的情况下构建产品。这种依赖直觉、跳脱传统编码苦役的开发方式,被赋予了一个颇具时代感的名字——。简单来说, Vibe Coding 代表了一种新颖的软件开发哲学。开发者主要通过自然语言向 AI 描述需求,由 AI 负责生成和修改代码。原创 2025-04-25 08:18:09 · 90 阅读 · 0 评论 -
大模型——快速部署和使用 Deep Research Web UI
Deep Research Web UI是一款由 AI 驱动的智能研究可视化工具。它整合了搜索引擎、网络抓取和大语言模型等先进技术,能够自动对复杂问题进行深度挖掘,并生成结构完整的研究报告。该工具强调用户的数据安全和部署灵活性,所有数据处理均在本地浏览器完成,并支持私有化部署。用户可以通过动态树状结构实时追踪研究的逻辑脉络,最终报告支持一键导出为 PDF 或 Markdown 格式,方便分享和存档。原创 2025-04-25 08:16:46 · 193 阅读 · 0 评论 -
大模型——多种RAG组合优化(langchain实现)
列表中的每个元素代表一条消息,消息通常由 BaseMessagePromptTemplate 类的实例组成,比如 SystemMessagePromptTemplate、HumanMessagePromptTemplate 等,分别对应系统消息、人类消息等不同角色的消息模板。例如,如果您希望与ChatGPT在与体育相关的话题范围内进行对话,可以将”system"角色分配给聊天助手,并设置内容为"体育专家”。CoT的优势在复杂的推理任务中更为明显,同时使用大型模型(例如,参数超过50B)。原创 2025-04-24 20:32:53 · 667 阅读 · 0 评论 -
大模型——RAG进阶 Embedding Models嵌入式模型原理和选择
主要用于训练和评估模型:根据一段文章回答相关的问题。**BGE-M3:**北京智源研究院开发,支持多语言、混合检索(稠密+稀疏向量),处理 8K 上下文,适合企业级知识库。**NV-Embed-v2:**基于 Mistral-7B,检索精度高(MTEB 得分 62.65),但需较高计算资源。**训练方法:**对比学习(如 Word2Vec 的 Skip-gram/CBOW)、预训练+微调(如 BERT)。**上下文依赖:**现代模型(如 BGE-M3)动态调整向量,捕捉多义词在不同语境中的含义。原创 2025-04-24 08:18:46 · 418 阅读 · 0 评论 -
大模型——Dify使用MCP查询数据库
今天我们来看Dify结合MCP查询数据库,这里我们用到了一个查询数据库的服务,其实之前我们也有一篇讲text2sql的案例,但是因为我们表结构作为知识库,需要我们把这个表结构做的很丰富,确保能够更精准的生成相应的SQL语句,今天介绍的MCP查询数据库会更灵活一些。MCP服务其实在现阶段,Dify的支持还是欠缺了点,使用的感受还是不如其他的一些客户端,比如我用的cherry studio,这个给我感觉会更兼容一些,使用起来会更方便一些,就是cursor也很好用,有空我也会去介绍一下这些工具的使用。原创 2025-04-23 08:12:07 · 1109 阅读 · 0 评论 -
大模型——InternVL开源多模态大模型,支持图像、视频和文本处理
InternVL 是由上海人工智能实验室(OpenGVLab)开发的一个开源多模态大模型项目,托管在 GitHub 上。它集成了视觉和语言处理能力,支持图像、视频和文本的综合理解与生成。InternVL 的目标是打造一个媲美商业模型(如 GPT-4o)的开源替代品,广泛应用于视觉感知、跨模态检索和多模态对话等任务。该项目以其强大的视觉编码器、动态高分辨率支持和高效训练策略著称,模型规模从 1B 到 78B 参数不等,适合从边缘设备到高性能服务器的多种应用场景。原创 2025-04-23 08:01:57 · 69 阅读 · 0 评论 -
大模型——Crawl4AI中的分块策略详解
通过以上的分块策略,用户可以根据特定需求选择最佳的方法来划分文本。无论是需要精确的句子边界、主题基础的分段,还是均匀的块大小,Crawl4AI都能满足用户的需求。在Crawl4AI中,文本处理时会使用多种分块策略,将文本划分为可管理的小部分。在这个示例中,使用了正则表达式来定义分割文本的模式,文本将根据指定的模式被分成多个块。在这个示例中,使用滑动窗口方法生成重叠的文本块,有助于在处理时保留上下文信息。使用滑动窗口方法创建重叠的块。在这个示例中,文本被分割成每个块包含10个单词,便于均匀处理文本。原创 2025-04-21 07:27:12 · 121 阅读 · 0 评论 -
大模型——Crawl4AI JavaScript 执行与数据过滤使用 AsyncWebCrawler
在更复杂的场景中,可能需要在多个请求之间保持状态,或在初始页面加载后执行额外的 JavaScript。",print("初始爬虫结果:", result1.extracted_content)print("额外的 JS 执行结果:", result2.html)在这个高级示例中,首先执行初始爬取,并为会话指定一个 ID。接着,在同一会话中执行额外的 JavaScript,滚动页面到底部,等待条件确保页面加载完全。原创 2025-04-21 07:26:28 · 326 阅读 · 0 评论 -
大模型——阿里云百炼 MCP 服务评测与 Agent 构建实战
第二个案例相对复杂一些,目标是让 AI 自动抓取指定网页内容,进行总结,并将总结结果连同标签一起保存到Flomo笔记应用中。此案例涉及两个第三方MCPFirecrawl(用于网页抓取)和Flomo(用于笔记记录)。原创 2025-04-20 09:46:30 · 229 阅读 · 0 评论 -
AI 编程工具——使用cursor创建一个mcp服务,并在cursor中调用
Cursor 是一个 AI 驱动的代码编辑器,支持(MCP),允许开发者通过自定义服务器增强 AI 功能。MCP 是一种开放标准,连接 AI 模型与外部工具或数据源。本报告聚焦于配置一个简单的天气服务器,使用假数据,适合初学者。原创 2025-04-20 08:54:43 · 273 阅读 · 0 评论 -
AI 编程工具—如何在 Cursor 中集成使用 MCP工具
选择对应的服务后,可以在这里拿到设置好的cursor 中对应的配置,新版的cursor已经没有界面配置入口,官方推荐使用json 格式配置,方便配置环境变量。找到你想要的mcp server 后,点击cursor ,这是因为我们在cursor中演示,也就是我们的mcp client 是cursor。这个表示有问题,其实我们删除上面的配置文件,因为我们其实在执行完npm 命令后,这个mcp server 已经配置好了,这是我后来发现的。下面我们就可以点击json 复制下面的mcp server 的配置了。原创 2025-04-18 22:34:40 · 379 阅读 · 0 评论 -
大模型——AI Agent 重塑电商客服:基于 Coze 平台的实践解析
该方案的核心思想是将复杂的传统客服职能,抽象为可数据化、可调度的智能化服务单元,构建一个能自主执行服务流程的智能体系统。定制的电商智能体,能够快速从知识库中定位商品特性、促销活动信息、历史对话记录等,生成个性化的营销话术,以提升商品吸引力和转化率。模式的广泛落地仍面临挑战,包括对高质量数据的依赖、复杂或非标场景的处理能力、以及在完全自动化场景下的服务边界和伦理考量。还能结合店铺的邮费政策、运费险规则、优惠券策略等信息,解答消费者疑虑,建立信任,辅助购买决策。平台的实践,特别是在售后客服场景,其构建的。原创 2025-04-18 07:48:24 · 165 阅读 · 0 评论 -
大模型——RAG架构大揭秘
但如果问题超出了它的知识范围,它可能就无能为力了。而RAG技术就像是一个“开卷考试”的学生,它不仅可以利用自己学到的知识,还能随时查阅一个巨大的“知识库”,从中找到最相关的资料,然后结合这些资料生成一个更准确、更丰富的回答。这就像是在一个巨大的图书馆里,你只需要说出你想要找的书的主题,系统就能立刻帮你找到最相关的几本书,并且还能告诉你哪些章节是你最需要看的。它的工作方式是这样的:当你问它一个问题时,它会从知识库中找出一些和你的问题最相似的文档,然后把这些文档和你的问题拼接在一起,扔给语言模型去生成回答。原创 2025-04-17 20:48:28 · 94 阅读 · 0 评论 -
大模型——Crawl4AI基于会话的爬虫技术
Crawl4AI 允许您设置自定义钩子,在爬虫过程的不同阶段执行。这对于处理复杂的加载场景特别有用。try:break"""url=url,这个技术使用自定义的钩子来确保在继续下一步之前,新内容已经加载。使用 Crawl4AI 进行基于会话的爬虫为处理动态内容和复杂网页应用程序提供了强大的能力。通过利用会话管理、JavaScript 执行和等待策略,用户可以有效地爬取和提取各种现代网站的数据。记住,要负责任地使用这些技术,并遵守网站政策和道德网页抓取实践。原创 2025-04-17 13:42:09 · 403 阅读 · 0 评论 -
大模型——AsyncWebCrawler 概述与 Crawl4AI 的使用
在本章节中,将详细介绍如何使用 Crawl4AI 的 AsyncWebCrawler 进行异步网页摘要提取,包括设置提取策略、定义数据模型以及处理多个 URL 以实现高效爬取的相关内容,辅以实际示例。接下来,设置要进行摘要提取的网页 URL。使用 Pydantic 库定义提取数据的结构。创建一个异步函数来执行爬虫作业。url=url,通过利用 Crawl4AI 的异步能力,用户可以高效地执行网页爬取和数据提取任务。原创 2025-04-17 13:41:27 · 68 阅读 · 0 评论 -
大模型——Obsidian加Cursor就是最强个人AI知识库
首先为没有用过或者不知道 Obsidian 的用户解释一下什么是 Obsidian。Obsidian 是一款功能强大的笔记软件,专为知识管理设计,支持 Markdown 格式、双向链接和本地存储,可以助你构建个人知识体系。首先就是对 **Markdown 格式的支持,**这是一种轻量级标记语言,简单易学且功能强大。用户可以轻松创建格式化的文本。如果你不太了解 Markdown 语法的话可以看页面最后的文档。然后就是他独特的双链笔记,允许用户在笔记之间建立关联,形成一个动态的知识网络。原创 2025-04-16 21:11:19 · 235 阅读 · 0 评论 -
大模型——现在最强的AI网页剪藏工具 Obsidian Web Clipper ,而且还免费
Obsidian 专门对 ChatGPT 和 Claude 的网页格式做了优化,可以用非常优雅的方式保存你跟 AI 的聊天记录,比如我下面这个 Deep Research 的结果在Obsidian 里面就是这样的。如果你想要自己设置的话,我们可以关注这几个地方,首先是笔记位置,这里就是你在 Obsidian 中保存剪藏内容的文件夹叫啥,我的模板叫剪藏文件,第一次使用他会自动在你 Obsidian 创建一个这个名字的文件夹。在这个信息爆炸的时代,我们每天接触的知识量已经远远超出了人类认知的极限。原创 2025-04-16 20:46:25 · 837 阅读 · 0 评论 -
大模型——AsyncWebCrawler 概述与 Crawl4AI 的使用
在本章节中,将详细介绍如何使用 Crawl4AI 的 AsyncWebCrawler 进行异步网页摘要提取,包括设置提取策略、定义数据模型以及处理多个 URL 以实现高效爬取的相关内容,辅以实际示例。接下来,设置要进行摘要提取的网页 URL。使用 Pydantic 库定义提取数据的结构。创建一个异步函数来执行爬虫作业。url=url,通过利用 Crawl4AI 的异步能力,用户可以高效地执行网页爬取和数据提取任务。原创 2025-04-16 09:27:40 · 231 阅读 · 0 评论 -
大模型——理解Crawl4AI 中的爬取请求参数
通过理解和应用这些参数,用户可以根据需求定制其网络爬虫,以实现更高效的数据提取和处理。方法中的参数详解,包括 URL、提取策略、分块策略等,旨在实现高效的网页爬虫,配合实用示例进行说明。此示例展示了如何配置各种参数,以自定义使用 Crawl4AI 的异步爬虫以及提取过程。方法被设计为高度可配置,允许用户根据自己的需求来定制爬取和提取过程。可以传递的其他关键字参数,以进一步自定义爬取过程。是否强制进行新的爬取,即使之前已经爬取过该 URL。一个块必须包含的最小单词数,以被视为有意义。要爬取的网页的 URL。原创 2025-04-16 09:26:50 · 152 阅读 · 0 评论 -
大模型——万字长文告诉你如何基于MCP实现AI应用架构新范式转型
本文介绍了企业如何利用MCP(Model Context Protocol)实现AI应用架构的新范式转型。原创 2025-04-15 22:29:22 · 174 阅读 · 0 评论 -
大模型——理解Crawl4AI的爬虫结果类 CrawlResult
类是 Crawl4AI 的输出核心,封装了从爬虫会话中提取的所有数据。该类包含多个字段,用于存储网页爬取和提取过程的结果。以下将详细分解每个字段并解释其含义。字段解释该字段保存被爬取的网页的 URL。它是网页处理过程中提取的 URL,简单而直接。这个字段存储网页的原始 HTML 内容。它是爬虫获取的未经处理的 HTML 源代码,为后续的数据提取提供了基础。这是一个布尔值标志,指示爬取和提取过程是否成功。如果在过程中发生任何错误,该值将为 。这个字段保存已清理的 HTML 内容。清理过程包括去除如 、原创 2025-04-15 22:10:57 · 48 阅读 · 0 评论 -
大模型——Crawl4AI 中的数据提取策略
是一种强大的工具,可以使用 CSS 选择器从 HTML 中提取结构化数据。它允许用户定义一个模式,将 CSS 选择器映射到特定字段,从而实现精确和高效的数据提取。利用语言模型(LLM)从 HTML 内容中提取有意义的信息。使用基于余弦相似性的层次聚类,将文本块组合成有意义的簇。通过选择合适的数据提取策略,用户可以有效地从网页内容中提取最相关和有用的信息。在本章中,将详细介绍在 Crawl4AI 中可用的数据提取策略。),或是精确的结构化数据提取(使用。),还是基于说明的细致提取(使用。原创 2025-04-15 22:07:45 · 379 阅读 · 0 评论 -
大模型——Crawl4AI入门指南
Crawl4AI 是一个强大的异步网络爬虫库,旨在简化信息收集过程。它允许开发者快速、有效地从网站上提取数据,并支持多种提取策略和动态内容的处理。通过使用异步编程,Crawl4AI能够在进行爬取时提高效率,使其在处理大量请求时表现更佳。原创 2025-04-14 21:32:46 · 626 阅读 · 0 评论