自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

NLP工程化

专注于Python/C++/CUDA、ML/DL/RL和NLP/KG/DS/LLM领域的技术分享。

  • 博客(712)
  • 资源 (29)
  • 收藏
  • 关注

原创 博客文章索引汇总--自然语言处理

一.Caffe学习日记1.Caffe学习日记12.Caffe学习日记23.Caffe学习日记34.Caffe学习日记45.Caffe学习日记56.Caffe学习日记67.Caffe学习日记78.Caffe学习日记89.Caffe学习日记910.Caffe学习日记10二.Python与机器学习1.Python与机器学习12.Python与机器学习23.Python与机器学习34.Python与机器学习45.Python与机器学习56.Python与数据分析17.Python

2020-10-12 18:47:16 459

原创 博客文章索引汇总--软件工程

一.Android学习日记1.Android学习日记1二.小程序学习日记1.小程序学习日记12.小程序学习日记23.小程序学习日记34.小程序学习日记4三.C++学习日记1.C++学习日记12.C++学习日记23.C++学习日记34.C++学习日记45.C++学习日记56.C++学习日记6四.Cocos2d-JS学习日记1.Cocos2d-JS学习日记12.Cocos2d-JS学习日记23.Cocos2d-JS学习日记34.Cocos2d-JS学习日记45.Cocos2

2020-10-11 00:05:03 514

原创 博客文章索引汇总--C#

一.ABP VNext学习日记1.ABP VNext学习日记12.ABP VNext学习日记23.ABP VNext学习日记34.ABP VNext学习日记45.ABP VNext学习日记56.ABP VNext学习日记6二.ASP.NET Core学习日记ASP.NET Core学习日记1ASP.NET Core学习日记2ASP.NET Core学习日记3ASP.NET Core学习日记4ASP.NET Core学习日记5ASP.NET Core学习日记6ASP.NET Cor

2020-10-11 00:04:57 1628

原创 博客文章索引汇总--Python和R

一.Cython学习日记1.Cython学习日记12.Cython学习日记2二.Django学习日记1.Django学习日记12.Django学习日记23.Django学习日记34.Django学习日记45.Django学习日记56.Django学习日记67.Django学习日记78.Django学习日记89.Django学习日记910.Django学习日记1011.Django学习日记1112.Django学习日记1213.Django学习日记1314.Django学习日

2020-10-11 00:04:53 304

原创 博客文章索引汇总--计算机视觉

一.MoveIt教程1.MoveIt教程[1]:Getting Started2.MoveIt教程[2]:MoveIt! Quickstart in RViz3.MoveIt教程[3]:Move Group C++ Interface4.MoveIt教程[4]:Move Group Python Interface5.MoveIt教程[5]:MoveIt! Commander Scripting6.MoveIt教程[6]:Robot Model and Robot State7.MoveIt教

2020-10-11 00:02:46 310

原创 ComfyUI中的BizyAir节点操作

因为多模态模型对计算机硬件GPU要求高,BizyAir定位是可以在任何环境中运行Comfy节点。本质是把部分节点放在云端执行返回结果。如果能把耗时耗GPU节点放在云端加速好,这也是非常不错的。

2024-07-21 01:23:34 1000

原创 Dify中接入GPT-4o mini模型

GPT-4o mini("o"代表"omni")是小型型号类别中最先进的型号,也是OpenAI迄今为止最便宜的型号。它是多模态的(接受文本或图像输入并输出文本),具有比 gpt-3.5-turbo 更高的智能,但速度同样快。它旨在用于较小的任务,包括视觉任务。建议在之前使用 gpt-3.5-turbo 的地方选择 gpt-4o-mini ,因为此模型功能更强大且更便宜。

2024-07-21 01:22:36 493

原创 django-vue-admin项目运行

文本主要对django-vue-admin项目进行了简要介绍,并且对前后端进行了源码安装和运行。在此基础上可作为管理系统二次开发的基础框架。

2024-07-16 23:13:39 647

原创 Dify v0.6.14源码部署

Dify v0.6.14源码部署。

2024-07-16 23:12:17 683

原创 Dify中的分段设置参数

自动设置分段规则与预处理规则,如果不了解这些参数建议选择此项。

2024-07-15 23:01:47 245

原创 Dify中创建知识库操作和实现过程

方式一:先创建知识库,然后上传文件;方式二:直接上传文件,然后创建默认知识库。

2024-07-15 22:59:59 602

原创 Dify中的高质量索引模式实现过程

思考在什么情况下会使用到高质量索引模式呢?第1种情况是在知识库中上传文档,文档被拆分为段落后需要进行编码(增加);第2种情况是在召回测试的时候,需要对query进行编码(查询);第3种情况是当文档中的段落增加和更新时需要进行编码(增加和更新)。索引模式是针对知识库设置的,即对该知识库中所有的文档都生效。本文主要解释Dify中的高质量索引模式实现过程。

2024-07-15 22:54:56 1357

原创 TF和TF-IDF区别和联系

TF(Term Frequency)和TF-IDF(Term Frequency-Inverse Document Frequency)都是用于文本挖掘和信息检索的统计方法,用于评估一个词在文档或文档集合中的重要性。

2024-07-15 22:53:43 522

原创 Dify中Jieba类的create()方法实现过程

整个create方法的目的是为了处理一批文本,提取它们的关键词,并更新关键词表,以便于后续的关键词搜索和索引。这个过程通过获取锁来保证数据的一致性和操作的原子性。该create方法是Jieba类的一部分,用于处理文本列表,提取关键词,并更新关键词表。

2024-07-14 23:04:34 642

原创 Dify中的经济索引模式实现过程

extract当索引模式为经济时,使用离线的向量引擎、关键词索引等方式,降低了准确度但无需花费 Token。

2024-07-14 23:02:46 1033

原创 Dify中高质量索引模式时,通过线程池处理chunk过程

本文主要介绍了Dify中高质量索引模式时,如何通过线程池执行器来处理chunk的过程。源码位置:dify\api\core\indexing_runner.py\IndexingRunner._load。核心思想:假设一个数据集中有一个文档,该文档可以拆分为12个段(segment)。如果chunk_size=10,那么分为2批提交给线程池执行器进行处理。

2024-07-13 23:29:19 924

原创 Python中的名称修改和特殊属性

在 Python 中,以双下划线(__)开头但不以双下划线结尾的变量主要用于类的私有属性,这种命名方式被称为名称修饰(name mangling)。名称修饰会将变量名转换为类名和变量名的组合,从而避免在子类中发生意外覆盖。

2024-07-12 23:04:38 310

原创 Dify中固定递归字符文本分割器的chunk长度计算方式

本文主要从源码角度剖析了Dify中FixedRecursiveCharacterTextSplitter的chunk长度计算方式。

2024-07-12 23:03:07 737

原创 Dify中的知识库API列表

通过文本/文件创建/更新/删除文档/查询文档嵌入状态,知识库创建/知识库查询/文档列表查询,分段增/删/改/查。

2024-07-11 23:03:10 406

原创 Dify中的RAG和知识库

向量检索优势:复杂语义的文本查找,相近语义理解,多语言理解,多模态理解,容错性。传统关键词搜索优势:精确匹配,少量字符的匹配,倾向低频词汇的匹配。向量检索和关键词检索在检索领域各有其优势。混合检索通过多个检索系统的组合,实现了多个检索技术之间的互补。

2024-07-11 23:01:49 1447

原创 Dify工作流中的迭代节点

迭代节点的本质就是对数组内容循环处理。对数组执行多次步骤直至输出所有结果。迭代步骤在列表中的每个条目(item)上执行相同的步骤。使用迭代的条件是确保输入值已经格式化为列表对象。迭代节点允许 AI 工作流处理更复杂的处理逻辑,迭代节点是循环节点的友好版本,它在自定义程度上做出了一些妥协,以便非技术用户能够快速入门。

2024-07-10 22:51:17 867

原创 Dify工作流中的参数提取节点

利用 LLM 从自然语言推理并提取结构化参数,用于后置的工具调用或 HTTP 请求。Dify 工作流内提供了丰富的工具选择,其中大多数工具的输入为结构化参数,参数提取器可以将用户的自然语言转换为工具可识别的参数,方便工具调用。工作流内的部分节点有特定的数据格式传入要求,如迭代节点的输入要求为数组格式,参数提取器可以方便的实现结构化参数的转换。

2024-07-10 22:50:03 761

原创 Dify工作流中的变量聚合节点

变量聚合节点(原变量赋值节点)负责整合不同分支的输出结果,确保无论哪个分支被执行,其结果都能通过一个统一的变量来引用和访问。这在多分支的情况下非常有用,可将不同分支下相同作用的变量映射为一个输出变量,避免下游节点重复定义。目的是将多路分支的变量聚合为一个变量,以实现下游节点统一配置。

2024-07-10 22:48:36 299

原创 Dify中的工具

Dify中的工具分为内置工具(硬编码)和第三方工具(OpenAPI Swagger/ChatGPT Plugin)。工具可被Workflow(工作流)和Agent使用,当然Workflow也可被发布为工具,这样Workflow(工作流)中又可以使用Workflow(工具)。

2024-07-10 22:46:11 893

原创 dify-api的Dockerfile分析

dify-api的Dockerfile分析。

2024-07-10 22:44:20 941

原创 dify-web的Dockerfile分析

dify-web的Dockerfile分析。

2024-07-10 22:42:12 978

原创 在Windows平台上通过PyCharm调试Celery任务

在分析Dify源码中Celery任务时候,刚开始使用命令行执行,不能够很方便的调试Celery任务中间变量。经过一番尝试终于可以在Windows平台上通过PyCharm来调试Celery任务了。

2024-07-10 22:39:01 287

原创 dify/api/models/workflow.py文件中的数据表

源码位置:dify/api/models/workflow.py

2024-07-09 17:55:38 842

原创 dify/api/models/web.py文件中的数据表

源码位置:dify/api/models/web.py

2024-07-09 17:54:18 446

原创 dify/api/models/tools.py文件中的数据表

源码位置:dify/api/models/tools.py

2024-07-09 17:53:39 727

原创 dify/api/models/tool.py文件中的数据表

源码位置:dify/api/models/tool.py

2024-07-09 17:52:57 203

原创 dify/api/models/task.py文件中的数据表

源码位置:dify/api/models/task.py

2024-07-09 17:52:11 415

原创 dify/api/models/source.py文件中的数据表

源码位置:dify/api/models/source.py

2024-07-09 17:51:20 198

原创 ComfyUI入门教程

本文主要介绍了通过源码运行comfyui,默认例子介绍,节点管理器的使用,以及界面汉化。可多参考开源工作流,多加实践,从而掌握comfyui操作。

2024-07-09 17:50:31 1068

原创 Dify中的weaviate向量数据库操作

要搞清楚数据在postgre,redis和weaviate中的增删改查,深刻理解Dify操作过程和实现过程。

2024-07-09 17:46:24 1205

原创 dify/api/models/provider.py文件中的数据表

源码位置:dify/api/models/provider.py

2024-07-08 17:20:43 418

原创 dify/api/models/model.py文件中的数据表

源码位置:dify/api/models/model.py

2024-07-08 17:20:03 887

原创 dify/api/models/dataset.py文件中的数据表

源码位置:dify/api/models/dataset.py

2024-07-08 17:19:10 315

原创 dify/api/models/api_based_extension.py文件中的数据表

源码位置:dify/api/models/api_based_extension.py

2024-07-08 17:17:26 130

原创 dify/api/models/account.py文件中的数据表

源码位置:dify\api\models\account.py。

2024-07-08 17:14:42 350

人工智能干货推荐.txt

免费送1000+本人工智能电子书,将近20G人工智能干货资料。包括[01]Python书籍_183;[02]机器学习书籍_144;[03]数据挖掘书籍_86;[04]自然语言处理书籍_72;[05]计算机视觉书籍_83;[06]深度学习书籍_93;[07]强化学习书籍_19;[08]语音技术书籍_19;[09]大数据书籍_49;[10]人工智能商业报告_295

2019-06-20

flasky.zip

绝对多数的网站或APP都需要对用户进行认证,包括用户注册、用户登录、邮件确认、修改密码、修改邮箱等功能。有的还需要绑定手机号码,或者使用微信等第三方账号进行登录。该代码是基于Flask实现社交博客程序的用户认证部分。

2019-05-29

TextCNN的TensorFlow实现

TextCNN的核心点在于可以捕获信息的局部相关性,具体到文本分类任务中可以利用CNN来提取句子中类似N-Gram的关键信息。

2019-01-24

TextRNN的TensorFlow实现

TextCNN擅长捕获更短的序列信息,但是TextRNN擅长捕获更长的序列信息。具体到文本分类任务中,BiLSTM从某种意义上可以理解为可以捕获变长且双向的N-Gram信息。

2019-01-24

ResNet的Keras实现

VGGNet和GoogLeNet等网络都表明有足够的深度是模型表现良好的前提,但是在网络深度增加到一定程度时,更深的网络意味着更高的训练误差。误差升高的原因是网络越深,梯度弥散[还有梯度爆炸的可能性]的现象就越明显,所以在后向传播的时候,无法有效的把梯度更新到前面的网络层,靠前的网络层参数无法更新,导致训练和测试效果变差。所以ResNet面临的问题是怎样在增加网络深度的情况下有可以有效解决梯度消失的问题。ResNet中解决深层网络梯度消失的问题的核心结构是残差网络。

2019-01-22

ResNet的TensorFlow实现

VGGNet和GoogLeNet等网络都表明有足够的深度是模型表现良好的前提,但是在网络深度增加到一定程度时,更深的网络意味着更高的训练误差。误差升高的原因是网络越深,梯度弥散[还有梯度爆炸的可能性]的现象就越明显,所以在后向传播的时候,无法有效的把梯度更新到前面的网络层,靠前的网络层参数无法更新,导致训练和测试效果变差。所以ResNet面临的问题是怎样在增加网络深度的情况下有可以有效解决梯度消失的问题。ResNet中解决深层网络梯度消失的问题的核心结构是残差网络。

2019-01-22

LinkQueue.cpp

LinkQueue.cpp

2014-11-10

二叉树顺序存储结构的基本操作

http://blog.csdn.net/ssw_1990/article/details/40511665代码。

2014-11-08

apache-ant-1.8.3-bin.tar

Ant是一个Apache基金会下的跨平台的构件工具,它可以实现项目的自动构建和部署等功能。在本文中,主要让读者熟悉怎样将Ant应用到Java项目中,让它简化构建和部署操作。

2014-11-02

概率与计算

《概率与计算》详细地介绍了概率技术以及在概率算法与分析发展中使用过的范例。《概率与计算》分两部分,第一部分介绍了随机抽样、期望、马尔可夫不等式、切比雪夫不等式、切尔诺夫界、球和箱子模型、概率技术和马尔可夫链等核心内容。第二部分主要研究连续概率、有限独立性的应用、熵、马尔可夫链蒙特卡罗方法、耦合、鞅和平衡配置等比较高深的课题。《概率与计算》适合作为高等院校计算机科学和应用数学专业高年级本科生与低年级研究生的教材,也适合作为数学工作者和科技人员的参考书。

2014-08-21

Git-1.9.4-preview20140611.exe

Git是用于Linux内核开发的版本控制工具。与CVS、Subversion一类的集中式版本控制工具不同,它采用了分布式版本库的作法,不需要服务器端软件,就可以运作版本控制,使得源代码的发布和交流极其方便。

2014-07-15

python-delicious-master

使用此组件,可以操作delicious。同时,分析源码也可以学习python。http://blog.csdn.net/ssw_1990/article/details/27341239

2014-05-28

menagerie-db.rar

mysql 5.1参考手册中使用的动物园数据库。

2014-05-08

macrodata数据集

利用Python进行数据分析,macrodata数据集。

2014-04-15

小费数据集

利用Python进行数据分析,小费数据集。

2014-04-15

ipython_bug.py

一个含有bug的python文件,主要是通过这个文件,学习ipython中ipdb的使用。

2014-04-07

MySQL源码分析整理

为了实现MySQL的更高级别的性能调优,我们通常需要理解其内部实现机制,并对其进行优化调试。在下面的系列中,我们会分别介绍MySQL的部分内部实现机制。

2013-05-08

JavaScript权威指南

Javascript是一种由Netscape的LiveScript发展而来的原型化继承的面向对象的动态类型的区分大小写的客户端脚本语言,主要目的是为了解决服务器端语言,比如Perl,遗留的速度问题,为客户提供更流畅的浏览效果。当时服务端需要对数据进行验证,由于网络速度相当缓慢,只有28.8kbps,验证步骤浪费的时间太多。于是Netscape的浏览器Navigator加入了Javascript,提供了数据验证的基本功能。

2013-03-22

Proteus入门教程

本书将简单介绍一下Proteus的使用。在这里,我用的Proteus版本是Proteus 6.7 sp3 Professional。

2013-03-11

知者无畏:一个真实的病毒世界

谈起电脑病毒,广大的读者恐怕都有谈虎色变的感觉,不知道这东西到底躲在什么地方,也不知道它们会对自己做些什么。不知道有谁说过这样一句话“无知者无畏”,我觉得真实情况恰恰相反,真正无畏的人只能是拥有了足够知识的人。人心中最大的恐惧就是对未知的恐惧,恐怖片之所以恐怖,是因为你不知道下面将要发生什么;电脑病毒之所以恐怖,也正是因为你不知道它们是什么,它们能做什么。而在电脑病毒这样一个迫切需要知识的领域,真正专业性的书籍很少,仅有的一些书,不是从哗众取宠的目的出发,拼凑一些骇人听闻的病毒/黑客故事,就是非常简单和粗浅的对80年代的病毒进行教科书似的描述。缺少具有专业性和权威性的著作,对于一些新的病毒和反病毒技术,象VBScript病毒、因特网蠕虫等,更是缺少足够的论述。

2013-03-10

计算机学习速成法

计算机学习速成法

2011-11-04

MFC类库详解MFC类库详解

MFC类库详解MFC类库详解MFC类库详解MFC类库详解

2010-09-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除