- 博客(12)
- 收藏
- 关注
原创 问答场景下:基于LLM的RAG问答系统构建思路与落地工程化架构设计系列文章(二)
本文探讨了生产环境下RAG系统的痛点解决方案,重点分析了索引过程的知识库构建和文档处理。知识库可分为离线(管理员预加载)和在线(用户上传)两种形式。文档处理方面,基于开源框架或自研系统时需考虑多格式文档加载、非文本数据转换(如图片OCR、表格结构化)以及数据清洗(去重、缺失值处理等)。同时强调了数据隐私安全(加密、访问控制)和分类标注体系的重要性,为构建高效可靠的RAG系统提供了全面的数据处理思路。
2026-01-07 14:48:27
735
原创 问答场景下:基于LLM的RAG问答系统构建思路与落地工程化架构设计系列文章(一)
摘要:本文探讨了当前AI应用在ToB领域的价值盲区,指出企业级AI解决方案面临的工程化挑战,包括架构设计、隐私安全、非功能性需求等关键问题。文章重点介绍了RAG系统的基本工作流程,分为索引构建、检索和生成三个阶段,涉及知识库处理、向量化、相似度匹配等核心技术环节。作者强调基础RAG系统性能不足,需要进一步优化加载器、切割器、向量模型等组件,并考虑生产环境下的实际需求。
2025-12-30 21:35:10
1054
原创 响应内容加密反爬案例三:有道翻译 加密译文数据获取
该案例考虑两点,其一是请求头参数加密的还原、其二是响应内容的还原。采用的都是堆栈回溯的方式。要求理解js代码的逻辑,并能够重构出来。难度适中。希望对堆栈回溯了解不充分的兄弟们有点帮助!
2023-11-09 14:44:11
1155
2
原创 webpack实战案例一 (xx银行商城商品信息)
这是一个webpack的经典案例,难度适中,主要是要理解webpack的流程。对应三个参数该如果获取,先后的逻辑分析清楚就会非常简单。
2023-11-04 17:27:51
1097
1
原创 cookie反爬实战案例三(真假瑞数5代、二)
这意味着咱们当前的var W = _0x4f80af['utils']['utf8']['toBytes'](x)还原成功。d = _0x4f80af['utils']['utf8']['toBytes'](e)的生成咱们也拿捏了。39、补充逻辑说明 case8中 fp与unknow的值生成,case2中_0x57b6be函数逻辑分析。后续的还原操作就是照猫画虎的操作了 最后看一下js生成的值与浏览器生成的值是否一样。此时e值的动态生成逻辑咱们也弄懂了 且这里的每一个值都是随机生成的。
2023-10-20 17:19:01
1631
2
原创 cookie反爬实战案例二(真假瑞数5代、一)
至于没有出现值的原因暂时我也不能确定是什么原因,但是可以肯定是由于校验了当前调试而导致没有产生这个值,但是也不要紧,虽然当前值没有生成,但是我们可以通过堆栈的回溯找到当前值的一个生成位置。说明咱们当前的环境是ok的。的生成机制(这个就是难点了,大家往后继续看是如何分析的,为了方便兄弟们观看,我就不以5.1,5.2的形式跟大家展示了,直接第6,第7步,一直往后,步骤很多大家一步一步跟着往后看。
2023-10-20 17:10:59
2741
4
原创 cookie反爬案例实战一(session管理)
如果说是服务器生成的cookie值,其实直接对他发起请求,是能够第一时间就拿到数据的,但是毕竟cookie还是有时效性,只要时效性过期了 下次请求就拿不到数据了。为了解决这个问题,很简单,直接用seesion进行会话保持。headers中X-Scrf-Token与cookie中szxx_session参数。某某政府办公室,不难,跟上节奏,详细看下面分析。5、X-Scrf-Token的查找与获取。6、szxx_session参数的获取。3、cookie反爬参数分析。1、抓包分析参数变化。
2023-10-17 16:13:40
1316
2
原创 判定是否为cookie反爬及解决方案
HTTP 是无状态的协议(对于事务处理没有记忆能力,每次客户端和服务端会话完成时,服务端不会保存任何会话信息):每个请求都是完全独立的,服务端无法确认当前访问者的身份信息,无法分辨上一次的请求发送者和这一次的发送者是不是同一个人。所以服务器与浏览器为了进行会话跟踪(知道是谁在访问我),就必须主动的去维护一个状态,这个状态用于告知服务端前后两个请求是否来自同一浏览器。而这个状态需要通过 cookie 或者 session 去实现。
2023-10-12 15:55:12
1817
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅