自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 问答场景下:基于LLM的RAG问答系统构建思路与落地工程化架构设计系列文章(二)

本文探讨了生产环境下RAG系统的痛点解决方案,重点分析了索引过程的知识库构建和文档处理。知识库可分为离线(管理员预加载)和在线(用户上传)两种形式。文档处理方面,基于开源框架或自研系统时需考虑多格式文档加载、非文本数据转换(如图片OCR、表格结构化)以及数据清洗(去重、缺失值处理等)。同时强调了数据隐私安全(加密、访问控制)和分类标注体系的重要性,为构建高效可靠的RAG系统提供了全面的数据处理思路。

2026-01-07 14:48:27 735

原创 问答场景下:基于LLM的RAG问答系统构建思路与落地工程化架构设计系列文章(一)

摘要:本文探讨了当前AI应用在ToB领域的价值盲区,指出企业级AI解决方案面临的工程化挑战,包括架构设计、隐私安全、非功能性需求等关键问题。文章重点介绍了RAG系统的基本工作流程,分为索引构建、检索和生成三个阶段,涉及知识库处理、向量化、相似度匹配等核心技术环节。作者强调基础RAG系统性能不足,需要进一步优化加载器、切割器、向量模型等组件,并考虑生产环境下的实际需求。

2025-12-30 21:35:10 1054

原创 响应内容加密反爬案例三:有道翻译 加密译文数据获取

该案例考虑两点,其一是请求头参数加密的还原、其二是响应内容的还原。采用的都是堆栈回溯的方式。要求理解js代码的逻辑,并能够重构出来。难度适中。希望对堆栈回溯了解不充分的兄弟们有点帮助!

2023-11-09 14:44:11 1155 2

原创 响应内容加密反爬案例二:全国建筑监管平台相关信息获取

获取全国建筑市场监管公告服务平台数据服务下企业数据。

2023-11-07 16:29:20 1069 2

原创 webpack实战案例一 (xx银行商城商品信息)

这是一个webpack的经典案例,难度适中,主要是要理解webpack的流程。对应三个参数该如果获取,先后的逻辑分析清楚就会非常简单。

2023-11-04 17:27:51 1097 1

原创 响应内容加密反爬案例一:某简壁纸4K高清无码图片获取

禁止翻页爬取 不可对网站进行攻击或分布式爬取 仅供学习参考。

2023-10-31 14:34:54 1490 10

原创 cookie反爬实战案例四(acw_sc__v2 + 无限debugger处理)

一、需求。

2023-10-27 14:27:41 3013 6

原创 cookie反爬实战案例三(真假瑞数5代、二)

这意味着咱们当前的var W = _0x4f80af['utils']['utf8']['toBytes'](x)还原成功。d = _0x4f80af['utils']['utf8']['toBytes'](e)的生成咱们也拿捏了。39、补充逻辑说明 case8中 fp与unknow的值生成,case2中_0x57b6be函数逻辑分析。后续的还原操作就是照猫画虎的操作了 最后看一下js生成的值与浏览器生成的值是否一样。此时e值的动态生成逻辑咱们也弄懂了 且这里的每一个值都是随机生成的。

2023-10-20 17:19:01 1631 2

原创 cookie反爬实战案例二(真假瑞数5代、一)

至于没有出现值的原因暂时我也不能确定是什么原因,但是可以肯定是由于校验了当前调试而导致没有产生这个值,但是也不要紧,虽然当前值没有生成,但是我们可以通过堆栈的回溯找到当前值的一个生成位置。说明咱们当前的环境是ok的。的生成机制(这个就是难点了,大家往后继续看是如何分析的,为了方便兄弟们观看,我就不以5.1,5.2的形式跟大家展示了,直接第6,第7步,一直往后,步骤很多大家一步一步跟着往后看。

2023-10-20 17:10:59 2741 4

原创 cookie反爬案例实战一(session管理)

如果说是服务器生成的cookie值,其实直接对他发起请求,是能够第一时间就拿到数据的,但是毕竟cookie还是有时效性,只要时效性过期了 下次请求就拿不到数据了。为了解决这个问题,很简单,直接用seesion进行会话保持。headers中X-Scrf-Token与cookie中szxx_session参数。某某政府办公室,不难,跟上节奏,详细看下面分析。5、X-Scrf-Token的查找与获取。6、szxx_session参数的获取。3、cookie反爬参数分析。1、抓包分析参数变化。

2023-10-17 16:13:40 1316 2

原创 判定是否为cookie反爬及解决方案

HTTP 是无状态的协议(对于事务处理没有记忆能力,每次客户端和服务端会话完成时,服务端不会保存任何会话信息):每个请求都是完全独立的,服务端无法确认当前访问者的身份信息,无法分辨上一次的请求发送者和这一次的发送者是不是同一个人。所以服务器与浏览器为了进行会话跟踪(知道是谁在访问我),就必须主动的去维护一个状态,这个状态用于告知服务端前后两个请求是否来自同一浏览器。而这个状态需要通过 cookie 或者 session 去实现。

2023-10-12 15:55:12 1817

原创 node环境下运行js代码缺少window环境原因与解决方案

node环境下运行js代码缺少window环境原因与解决方案

2022-12-10 14:20:48 11618 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除