自然语言处理
文章平均质量分 53
MilkLeong
这个作者很懒,什么都没留下…
展开
-
ChatOpenAI和OpenAI辨析
这篇文章主要讲LangChain中ChatOpenAI和OpenAI的不同,代码完全是在B站。看到的,代码在GitHub上也有。原创 2024-08-28 00:06:33 · 360 阅读 · 0 评论 -
Langchain_RAG搭建入门
代码是在B站上看到的,先记在这里。后续还会根据自己的实际需求修改。涉及到的task主要包括 读取PDF文档、知识切片、对文本进行向量化、利用向量相似度检索出和问题最相关的k个文档,将检索到的文本注入Prompt得到最终的回答。原创 2024-08-16 17:44:48 · 330 阅读 · 0 评论 -
在PAI-DSW中连接Neo4J,并批量创建知识图谱
是:在PAI-DSW的命令行使用./cypher-shell语句登录neo4j,然后在PAI-DSW的NoteBook中使用neo4j模块或者py2neo模块连接(在PAI-DSW的命令行中)已启动的neo4j,进行批量的节点和关系创建。这样的做法就类似于在本地的命令行启动neo4j,然后再在本地的NoteBook中使用neo4j模块或py2neo模块连接(本地命令行中启动的)neo4j,在命令行和NoteBook中登录的neo4j都处于同一局域网中。然后使用neo4j.close()关闭与数据库的连接。原创 2024-08-02 19:34:37 · 823 阅读 · 0 评论 -
LLaMA-Factory私有化部署 -- PAI-DSW
LLaMA-Factory的私有化部署与部署大模型的过程大体相同,都包括创建Python虚拟环境、下载项目文件及安装所需的依赖包,但在部署LLaMA-Factory时不需要再安装模型权重文件。LLaMA-Factory的requirements.txt文件包含了项目运行所需的所有Python包及其精确版本,可使用pip一次性安装所有依赖。建议在执行项目的依赖安装之前升级pip的版本,如果使用的是旧版本的pip,可能无法安装一些最新的包,或者可能无法正确解析依赖关系。使用下面的代码进行Pytorch的安装。原创 2024-07-31 11:52:58 · 574 阅读 · 0 评论 -
ChatGPT接入Neo4J,实现精准领域知识问答
我自己构建了一个小型的古籍知识库,想接入ChatGPT,来实现更精准的古籍知识问答。实现的方式应该有很多,但我目前只会最简单的,即:调用chat-gpt的api,通过prompt生成Cypher查询语句进行查询,然后chat-gpt根据查询的结果生成回答。修改的代码,看见CSDN上也有类似代码,但需要付费订阅才能看。下图是最终生成的结果中的描述,结合之前创建的知识图谱,或者《山海经》原文,可知这个答案是很准确的。而下图是GPT-3.5-Turbo的原始回答,可知其对领域知识知之甚少。我主要是根据B站视频。原创 2024-07-28 18:47:59 · 522 阅读 · 0 评论 -
知识图谱与云计算
所以不但要做符号化的知识图谱的管理,也要做向量化的知识图谱的管理。现在一个重要的趋势就是将知识图谱的符号式的表示转换成分布式的数值表示。大模型通过使用大规模的数据进行训练,学到了很多我们人类还没意识到的隐性的知识。未来应将知识图谱中的显性知识与大模型中的隐性知识结合起来解决问题。知识图谱是符号主义解决问题的一种方式。知识图谱中概念知识的向量化表示跟实体知识的向量表示是不一样的,如何对这些概念知识的向量表示进行学习也是需要考虑的问题。由于图的表示多种多样,对知识图谱进行系统化的管理十分的必要。原创 2024-01-04 17:31:09 · 592 阅读 · 0 评论 -
基于pyltp的依存句法分析
代码是两年多前网上找的,能运行。先记在这里,以防以后用到。原创 2023-12-01 16:01:39 · 741 阅读 · 0 评论 -
NLP中两个词向量间余弦相似度的求解方式
根据ChatGPT生成的答案改的。原创 2023-11-20 17:59:15 · 167 阅读 · 0 评论 -
Kneser-Ney平滑(Kneser-Ney smoothing)简介
它的基本思想是利用n-gram的上下文信息来估计未见n-gram的概率。在语言模型中,n-gram是指由n个连续的词组成的序列。n-gram语言模型的目标是计算给定一个上下文的情况下,下一个词的概率。然而,当模型遇到未在训练数据中出现的n-gram时,概率会变为零,这会导致模型在生成或评估文本时出现问题。(3)Kneser-Ney平滑通过利用上下文信息来提高语言模型的性能,尤其是在处理未见n-gram时。(2)在计算概率时,使用补充概率和回退概率来调整未见和已见n-gram的概率。计算补充概率和回退概率。原创 2023-11-06 15:10:44 · 766 阅读 · 0 评论 -
【报错-已解决】Resource tagsets not found.
最近在接触nltk,已经在电脑里download nltk.data了,但程序还是报错Resource tagsets not found.对tagset压缩包进行解压,并确认解压后的文件夹文件路径没有重复(tagsets),该问题便解决了。在电脑里查找tagset,发现tagset文件没有解压。原创 2023-11-04 00:01:45 · 221 阅读 · 0 评论 -
使用TF-IDF对文本集中的单篇文本制作词云
使用TF-IDF制作整个文档集的词云有不少人讲过,如何对文档集中的单篇文档制作TF-IDF词云,却很少人写过。参照别人的代码,自己花不少时间琢磨代码里的逻辑,改动后,终于能对文档集中的单篇文档制作TF-IDF词云了。...原创 2022-08-17 23:21:51 · 1048 阅读 · 2 评论 -
import pyLDAvis as gensimvis报错
网上主要说跟pyLDAvis版本有关,但我使用pyLDAvis-3.3.1、pyLDAvis-2.1.2都会报这个错,说明错误是其他原因原创 2022-07-28 11:55:08 · 1404 阅读 · 0 评论 -
Python读取json文件,并将其写入excel
需要对一批谣言数据进行处理,该数据集是由清华大学自然语言处理与社会人文计算实验室整理的与疫情相关的谣言数据。数据集的整体构成如下,共有324个文件,皆放在rumor_weibo文件夹下:每个文件中存储着一个字典类型的数据(注意:字典并非放在列表中),该字典共由11个键值对对构成,如下:对每个键值对的详细描述可参看该数据集的官网,这里就不多说了,主要包括谣言的内容、发布时间、处理结果等。笔者想将这324个文件中的数据存储到一个excel中。1.Python读取json文件(1)首先以读取一个文原创 2021-04-18 20:25:17 · 7672 阅读 · 3 评论 -
Python之使用argparse在命令行读取文件
关于argparse之parser.add_argument()的用法,这篇文章有较为详细的讲解。因为作业需要,我需要在命令行读入txt文件,网上看了不少博客,都没有直接介绍,而小白在自己尝试的过程中踩了不少坑,尽管做法很简单。这里记在这里。1.在Python的shell中写一个 ArgparseTry.py 文件,其中的代码如下:import argparsedef readfile(path): with open(path,'r',encoding='utf-8-sig') as f:原创 2021-04-12 20:57:35 · 4186 阅读 · 1 评论 -
基于维基百科英文语料的Word2Vec模型使用
关于这方面的知识还没有弄透彻模型使用的常用方法有(见博文):另外还可参看gensim.Word2Vec的官方文档记在这里,以免后面忘掉了原创 2021-04-02 10:17:30 · 240 阅读 · 0 评论 -
范数、归一化、正则化
最近刚接触机器学习,很多概念都不是很懂,找到几篇文章,记在这里,以后再看范数、正则化、归一化、标准化知乎上的高赞回答转载 2021-02-25 18:49:04 · 437 阅读 · 0 评论 -
TransE全文中文翻译(Translating Embeddings for Modeling Multi-relational Data)
AbstractWe consider the problem of embedding entities and relationships of multi-relational data in low-dimensional vector spaces. Our objective is to propose a canonical model which is easy to train, contains a reduced number of parameters and can scale原创 2021-02-08 14:22:55 · 2963 阅读 · 0 评论 -
pkuseg.test()函数使用的困惑
用pkuseg模块来进行分词,在使用pkuseg.test()函数时,遇到了一些问题1.当我像这样写代码时,程序一直在运行状态,跑不出结果import pkusegpkuseg.test('input.txt','output.txt',postag=True,nthread=20) 这里的’input.txt’是直接从网上贴的,其具体内容如下:我们都有一个家名字叫中国,兄弟姐妹都很多,景色也不错。男子倒车时将自己碾死,监控记录离奇过程小米今日有30多亿股限售股解禁,小米集团发布公告,称雷原创 2021-01-05 11:08:57 · 373 阅读 · 0 评论 -
基于py2neo(v4)的知识图谱小案例
这个项目网上很多大神都讲过,但都是用的py2neo(v2,v3),这里对部分语句作了改动,使其在py2neo(v4)适用,主要改了以下语句hyp_node = self.graph.find_one( label=dis_label, property_key="name", property_value="高血压" )#from py2neo import Graph,Node,Relationship,Nod原创 2020-11-30 23:38:46 · 698 阅读 · 0 评论 -
使用python合并多个txt文件
Ana文件夹下有29个txt文件,想通过python将它们合并到一个txt文件中去。import osroot='E:\Programe\corpora'path='E:\Programe\corpora\Ana'files=os.listdir(path)result=os.path.join(root,'result.txt') #生成最终txt文件(result.txt)的路径...原创 2020-04-08 17:44:37 · 7667 阅读 · 2 评论 -
Python3.7对文本批量进行词频分析
github上找的源码,自己改的,记在这里。对图中的文档做分词及词频统计,然后将统计生成的excel表格和分词后的text文本存入result文件夹里。待分词的文本:最后生成的文档:文件批量处理函数:主要用到os模块为新生成的文件命名,实现批量处理def word_frequency_analysis(path): files = os.listdir(path) # f......原创 2020-02-28 17:44:22 · 5427 阅读 · 9 评论 -
jieba分词并提取关键词
将分词结果写入一个文本文档,再将排名前100的关键词写入另一个文本文档。import jiebaimport jieba.analyse #关键词提取SourceTxt="E:\\Programe\\PySeg\\RawTxt\\14.txt" #待分词的文本TargetTxt="E:\\Programe\\PySeg\\TagTxt\\14.txt" #分词后写入的文本jieba...原创 2020-02-28 16:58:53 · 2971 阅读 · 2 评论