自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 基于本地知识库的智能问答系统架构

智能问答系统的核心可以分为4部分。1)知识库构建。2)检索。3)后处理。4)推理。知识库构建:知识库中可以包含多个向量数据库和知识图谱等,核心是怎么建立索引,使得检索时能够将与问题相关的知识给检索出来。检索:从知识库中的多个库或者知识图谱中检索出与问题相关的信息。后处理:从知识库中检索出来的信息可能是冗余的,而且可能不符合我们希望的格式要求,因此,我们需要对这些数据进行过滤,格式化等操作。推理: 基于检索出来的知识进行推理,让输出能够回答用户的问题,目前主要使用大模型进行推理。

2023-09-08 21:31:36 328 1

原创 预训练和微调背景

微调策略则通常指在微调过程中使用的超参数设置和技术,以优化微调的性能和效率。常见的方法有:Learning Rate Scheduler-Based Fine-Tuning:学习率可以认为是模型训练中最重要的超参数之一。不同的层捕获不同类型的信息,因此应该对它们使用不同的学习率进行微调。研究人员已经为不同的优化问题开发了几种学习率计划,如线性衰减、余弦衰减、指数衰减、反平方根衰减等,有时还有预热步骤。基于学习率调度的微调策略,根据训练过程中的性能,调整学习率以进行微调。如论文1。

2023-09-08 21:30:18 92 1

原创 Java与python多线程的区别,Java比python更适合多线程

Java在设计上更加注重多线程的支持,Java的线程模型比较成熟,提供了丰富的多线程编程接口和并发编程库,例如Java线程池、同步器、原子操作类等。Java虚拟机也对多线程有很好的支持,例如线程调度、线程优先级、线程状态等。此外,Java的线程模型也比较稳定,一般情况下不会出现线程死锁、资源泄露等问题。相比之下,Python的多线程模型相对简单,Python在实现上使用了全局解释器锁(Global Interpreter Lock,GIL)来保证线程安全,这也限制了Python多线程的并发能力。

2023-02-20 11:01:57 991 1

原创 对于计算密集型的任务,使用Python多线程并不会显著提高CPU利用率。

需要注意的是,由于GIL只是保护了Python解释器内部数据结构的一致性,因此对于I/O密集型的任务,使用多线程仍然可以提高程序的并发性能,因为线程可以在等待I/O时释放GIL,从而让其他线程执行Python代码。最近在做一个对多个文件进行数据抽取的任务,尝试使用python多线程后发现处理性能并没有提高,查看资源管理器发现CPU利用率也没有提高多少,多方调查发现,python对于多线程的实现并不好,对于计算密集型的任务使用多线程提升的性能有限。在使用Python多线程时,由于。

2023-02-20 10:55:18 1034

原创 Java的Long类型缓存机制

LongCache中维护了一个Long类型的数组,用于缓存Long对象,其中数组的大小默认为256(也就是-128到127的范围),如果程序需要使用一个Long对象,Java会首先检查这个Long对象是否在缓存中,如果在,则直接返回缓存中的对象,如果不在,则新建一个Long对象并将其添加到缓存中。具体来说,Java将Long对象缓存的范围定在-128到127之间,也就是说,如果程序中需要使用这个范围内的Long对象,Java会直接返回缓存中的对象,而不是新建一个Long对象。

2023-02-20 10:45:26 613 1

原创 维基百科离线数据python爬取

维基百科提供了一个离线版的数据下载,每周更新,该数据集包含了各个国家的维基百科数据。以下是我的实现,实现了下载检查本地是否已经存在该文件,和断点续传。,使用代码爬取的难度是在网络连接不稳定的情况如何下载这些数据集。

2023-02-12 17:05:07 816 2

原创 python对超大JSON大文件的按行去重,利用每行的hash值对文件去重。

由于文件的体积过大(GB级别),因此不可能全部放进内存中进行去重,只能先分成许多小文件然后对多个小文件进行排序去重,最后多个小文件合并成一个大的文件。将多个文件的当前行保存到堆中,通过堆排序来获取最小值行并加入到大文件中,获取后更新该文件的当前行。最近在做一个文件的按行去重任务,要求是对超大的json文件按行去重。最后,将去重后的小文件合并合并到一个文件中,因为切分大文件时按行计算。来将该行写入了对应的文件,因此,各个文件之间是没有重复的行的。

2023-02-12 16:56:18 936 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除