- 博客(5)
- 收藏
- 关注
原创 RAG构建中Embedding的理解
embedding:可以理解为向量化,也就是引言提到的,将物理世界实体 转成 数学空间的向量,以便可以进行计算。本质上是一系列float数据组成的向量,可正可负。例如一个词语:[0.3874,0.1235,0.8155,0.8824,0.2718,...]我们也需要思考一个问题,是否特征向量的维度越大越好?维度多大比较好呢?特征向量的维度表示的是对应实例的描述角度和维度,所以理应越多越好,但是对应的算力消耗也会增加。列举常见的embedding模型,对应的向量维度作为参考。Embedding模型。
2025-05-14 19:57:44
1004
原创 Redis集群部署横向拓展流程——简易入门版
既要保证集群部署带来的多台实例的性能优化,也更应该考虑主节点宕机导致的一系列灾备问题,所以集群部署往往也伴随着主从部署,通过哨兵机制,当主节点宕机则自动化升级从节点并更新其他从节点形成新的主从拓扑结构,保证高可用。同时仅仅以Redis2向Redis4做槽位内的key迁移为例,同样实际上所有其他实例(Redis1、3)都会进行数据的迁移,但我们可以很直观的发现,即便是不同的Redis实例进行迁移,每一个实例所迁移的槽,槽对应的key,需要迁移的流程都是非常直观且符合redis的简单高效设计理念的!
2025-04-19 01:17:37
903
原创 HTTP/1.1 与 HTTP/2到底有什么区别?
这个问题我们常常能在面试中被问到,如何回答好这个问题,以及这个问题最关键想考的原理我认为是我们应该了解和掌握的,包含着BS架构的设计艺术。同时,我认为知识分享和学习不应该太多废话,所以直接进入总结部分。
2025-04-09 00:08:12
1044
原创 分享爬取豆瓣评论(多页)的思路和代码
我们在span标签查找有allstar字符串的内容,同时我们发现有很多用户可能没有评分,所以我们只处理有评分的,由于豆瓣网显示0-5星,但是数值为0-50,所以我们先将数字从字符串提取出来,然后除以10就得到了结果,然后我们使用定义的列表存储上述三个值,这样每一页的数据就爬取好了。此处user_name = comment.find('a', class_='name').get_text()是简单的提取文本,content同理,就是星级需要处理,"用户名":user_name,"星级":star,
2024-05-22 17:03:56
1724
4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅