自然语言处理
stay_foolish12
本科统计学,研究生计算机应用技术。可以【接 】大学计算机课程设计、课程大作业,C++\C\JAVA\汇编\Golang\PHP等相关语言,MySQL\SQLServer等数据库,Linux操作系统,人工智能、数据挖掘、数据分析、自然语言处理等相关课程均可
展开
-
ChatGLM-6B+LangChain实战
重写_call方法:加载自己的模型,并限制只输出结果(chatglm原输出不是直接str,langchain中要求模型返回必须是str的结果:“”“LLM wrapper should take in a prompt and return a string.”“”)step1:自定义一个GLM继承LangChain中的langchain.llms.base.LLM,load自己的模型.step2:使用LangChain的mapreduce的方法,对文本分块,做摘要,输出结果.原创 2023-07-13 16:04:33 · 7148 阅读 · 3 评论 -
WebGLM综述以及相关工作
上周五在WAIC 上的论坛报告回放。先放两个供大家参考,另外的报告会陆续放在 B 站。另外还有一个贴近落地实践的 prompt 课程,近期会发在 B 站上。【报告】WebGLM: 检索增强的大规模预训练模型。大模型采用作为标签,大模型的结果90.2%是正确的。检索器:搜索引擎检索器,打分器 无人工标注。提出一套用于评价带引用长文本问答的指标。【报告】ChatGLM 的路径探索。原创 2023-07-13 14:36:33 · 302 阅读 · 0 评论 -
chatglm 130B:两个主要的稳定训练方法
解决方案:Qk转置的时候先用单精度来算,softmax的时候再转成FP16。第二个:embeddding 层梯度存在。原创 2023-07-13 10:58:58 · 324 阅读 · 0 评论 -
ChatGLM2-6B中引入ptuning报错:AttributeError: ‘ChatGLMModel‘ object has no attribute ‘prefix_encoder‘
这个问题在网上找了很多相关的文章最后都是不匹配的解决方案,最终的解决方法是修改configuration_chatglm.py模块中pre_seq_len参数即可。原文链接:https://blog.csdn.net/Together_CZ/article/details/131340838。将这几个文件下载并替换。原创 2023-07-05 09:54:45 · 2448 阅读 · 3 评论 -
手把收带你调用大模型+附上清华大学云盘:chatglm2位置
model目录下,放入你从下载的模型文件,比如,我这放的是chatglm2模型。修改的位置,model。原创 2023-07-03 16:41:08 · 721 阅读 · 0 评论 -
知识图谱基本知识点以及应用场景
近两年来,随着Linking Open Data等项目的全面展开,语义Web数据源的数量激增,大量RDF数据被发布。互联网正从仅包含网页和网页之间超链接的文档万维网(Document Web)转变成包含大量描述各种实体和实体之间丰富关系的数据万维网(Data Web)。在这个背景下,Google、百度和搜狗等搜索引擎公司纷纷以此为基础构建知识图谱,分别为Knowledge Graph、知心和知立方,来改进搜索质量,从而拉开了语义搜索的序幕。知识图谱的表示和本质正如Google的辛格博士在介绍知识图谱时提到的原创 2023-02-14 14:49:44 · 2294 阅读 · 0 评论 -
基于机器学习算法和pytorch实现的深度学习模型的中文长文本多分类任务实战
本文针对中文长文本的多分类问题,做了不同模型的全流程实现方案的展示,意在熟悉每个流程的coding和模型的一些细节。同时也可以对不同模型在长文本分类的效果上有一个基线,以后做类似的任务,就能很快的选择技术方案和排错。同时也对模型训练过程监控的可视化显示有了一个尝试,说明越来越有炼丹师的气质了呀!哈哈哈哈哈哈展望,其实目前业界对广泛的长文本分类并没有效果很好的方法,不同的论文中也提出了一些尝试和方法。在我的另一篇博客中——转载 2023-02-13 16:13:50 · 1787 阅读 · 0 评论 -
NLP词向量和句向量方法总结及实现
NLP词向量和句向量方法总结及实现:原创 2023-02-09 16:09:04 · 254 阅读 · 0 评论 -
中文文本分类 lstm模型实现
【代码】中文文本分类 lstm模型实现。原创 2022-11-23 17:15:40 · 820 阅读 · 0 评论 -
困惑度、主题一致性,lda模型找出主题相关词
通俗一点解释下就是,困惑度表示的对于一篇文章来说,我们有多不确定它是属于某个主题的。即主题的个数越多,模型的困惑度就越低,但是注意一点,当主题数很多的时候,生成的模型往往会过拟合,所以不能单纯依靠困惑度来判断一个模型的好坏。这时候我们的另一个判断标准就有作用了。biubiu~一致性!困惑度perplexity:句子的概率的倒数。如果句子的概率越大,说明这句话越符合人话的规律,即p(句子),pp困惑度越小。模型对该句子就越不困惑。通过图形,我暂时将主题定为10个。主题一致性:coherence。原创 2022-10-10 10:47:06 · 20699 阅读 · 6 评论 -
手把手教你模型选择,模型评估
通过混淆矩阵去查看各个分类的结果。原创 2022-10-10 10:29:41 · 211 阅读 · 0 评论 -
Github上的一些优秀的知识图谱项目*
Github上开源了很多有关知识图谱的项目,经过调研,整理了一些优秀的知识图谱项目。原创 2022-10-09 09:49:01 · 8877 阅读 · 1 评论 -
多文本分类小笔记
卡方检验是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。卡方分析检验的目的就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小。探索性分析:相关关系,和因果关系。Auc:假阳性率和真阳性率,为了去欸的那个分类的阈值,并确定比例。原创 2022-10-08 14:52:16 · 334 阅读 · 0 评论 -
吴恩达:机器学习的六个核心算法
60 年后,他的同胞 Jacques Hadamard 独立开发了它来描述薄而灵活的物体(如地毯)的变形,这可能会使膝盖向下徒步更容易。他的思想是理性的而不是非理性的。而神经网络的灵感来自大脑的结构:一层层相互连接的神经元,每个神经元根据其相邻状态来计算自己的输出,由此产生的一连串活动形成了一个想法——或识别出一张猫的照片。例如,带有正则化的线性回归(也称为「岭回归」,ridge regression)鼓励线性回归模型不要过多地依赖于任何一个变量,或者更确切地说,均匀地依赖于最重要的变量。转载 2022-08-24 09:24:21 · 236 阅读 · 0 评论 -
百面机器学习|第二章模型评估知识点 蓝白绛
如果你能找到这里,真是我的幸运~这里是蓝白绛的学习笔记,本集合主要针对《百面机器学习——算法工程师带你去面试》这本书。主要记录我认为重要的知识点,希望对大家有帮助。准确率(Accuracy):分类正确的样本占总样本个数的比例。当不同类别的样本比例非常不均衡时,将准确率作为分类性能的指标非常局限,可以使用更加有效的平均准确率(每个类别下的样本准确率的算数平均)作为模型评估的指标。精确率(Precision):分类正确的正样本个数占分类器判定为正样本个数的比例。召回率(Recall):分类正确的正样本个数占真转载 2022-06-15 11:50:40 · 519 阅读 · 0 评论 -
百面机器学习-第一章特征工程
本集合主要针对《百面机器学习——算法工程师带你去面试》这本书。主要记录我认为重要的知识点,希望对大家有帮助。一句业界经典的话:“Garbage in, garbage out”。对于机器学习问题,数据和特征决定了结果的上限,而模型、算法的选择和优化则是在逐步接近这个上限。特征工程从本质上来讲,是一个表示和展现数据的过程。在实际工作中,特征工程旨在去除原始数据中的杂质和冗余,设计更高效的特征以刻画求解的问题与预测模型之间的关系。本章主要讨论两种常用数......转载 2022-06-15 11:06:32 · 156 阅读 · 0 评论 -
一键中文数据增强包 ; NLP数据增强、bert数据增强、EDA:pip install nlpcda
NLP Chinese Data Augmentation 一键中文数据增强工具使用:pip install nlpcda开源不易,欢迎 star🌟pypi:https://pypi.org/project/nlpcda/介绍一键中文数据增强工具,支持:1.随机实体替换2.近义词3.近义近音字替换4.随机字删除(内部细节:数字时间日期片段,内容不会删)5.NER类 BIO 数据增强6.随机置换邻近的字:研表究明,汉字序顺并不定一影响文字的阅读理解<<是乱序的7.中文等原创 2022-05-17 15:02:32 · 1853 阅读 · 2 评论 -
rocketQA学习笔记
端到端问答系统 rocketQA问答技术发展回顾:原创 2022-05-12 16:28:20 · 375 阅读 · 0 评论 -
NLP数据增强、数据增广
点击上方,选择星标或置顶,每天给你送干货! 作者:李博涵 来自:哈工大SCIR 1.摘要 本文介绍自然语言处理领域的数据增广方法。数据增广(Data Augmentation,也有人将Data Augmentation翻译为“数据增强”,然而“数据增强”有将数据进行强化之意,而不仅是数量扩充。因此我们将其翻译为“数据增广”,单纯表示扩大数据规模。)是自动扩充训练数据的一种技术。如今深度学习取得了令...转载 2022-05-12 14:37:57 · 5370 阅读 · 0 评论 -
python计算中文文本相似度神器 sentence_transformer、text2vec
python计算中文文本相似度神器import sysfrom sentence_transformers.util import cos_simfrom sentence_transformers import SentenceTransformer as SBertmodel = SBert('paraphrase-multilingual-MiniLM-L12-v2')model = SBert("C:\\Users\xxxx\Downloads\\paraphrase-multilin原创 2022-05-12 10:51:02 · 3647 阅读 · 0 评论 -
paddlenlp的taskflow学习笔记
原创 2022-05-07 11:13:12 · 690 阅读 · 0 评论 -
paddlenlp在万方优化搜索匹配任务中的应用笔记
原创 2022-05-07 10:51:36 · 231 阅读 · 0 评论 -
三元组事件抽取与简单代码实现
https://blog.csdn.net/weixin_43718786/article/details/118217222转载 2022-04-12 14:38:36 · 547 阅读 · 0 评论 -
推荐:26种NLP练手项目(代码+数据)
1.分词 Word Segmentation chqiwang/convseg ,基于CNN做中文分词,提供数据和代码。 对应的论文Convolutional Neural Network with Word Embeddings for Chinese Word Segmentation IJCNLP2017. 2.词预测 Word Prediction ...转载 2022-04-02 15:10:54 · 13814 阅读 · 0 评论 -
Dockerfile构建python 运行项目运行环境
https://blog.csdn.net/qq_24487005/article/details/123380810 目录 构建思路 DockerFile脚本 环境文件解析 pip.conf sources.list openssl.cnf localtime install.sh startup.sh docker镜像构建 构建思路 1、把容器内需要用到的文件全部复制到容器中 2转载 2022-03-24 13:33:39 · 1641 阅读 · 0 评论 -
Python 获取本机或者服务器的 IP 地址
获取计算机名称hostname = socket.gethostname()获取本机 IPip = socket.gethostbyname(hostname)print(ip)具体操作import sockethostname = socket.gethostname()ip = socket.gethostbyname(hostname)print(ip)通常使用 socket.gethostname() 方法即可获取本机 IP 地址, 但有时候获取不到 (比如没有正确设置主机名称原创 2022-03-24 10:26:25 · 8393 阅读 · 0 评论 -
Python实现共现语义网络
Python实现共现语义网络:原创 2022-03-23 09:58:48 · 2121 阅读 · 0 评论 -
simbert文本相似度,短文本语义匹配模型
simbert文本相似语义召回;保存及在线服务https://blog.csdn.net/weixin_42357472/article/details/116205077SimBERT(基于UniLM思想、融检索与生成于一体的BERT模型)【主要应用场景:相似文本生成、相似文本检索】https://blog.csdn.net/u013250861/article/details/123649047import numpy as npimport osfrom collections import原创 2022-03-22 15:49:40 · 3877 阅读 · 0 评论 -
paddlenlp 任务清单 中文分词、中文纠错、文本相似度、情感分析、词性标注等一键
PaddleNLP Taskflow https://github.com/PaddlePaddle/PaddleNLP/blob/develop/docs/model_zoo/taskflow.md#paddlenlp-taskflowPaddleNLP TaskflowPaddleNLP Taskflow介绍任务清单用法查看使用示例中文分词词性标注命名实体识别文本纠错句法分析情感分析文本相似度『解语』-词类知识标注『解语』-名词短语标注生成式问答智能写诗原创 2022-03-22 11:16:33 · 6491 阅读 · 2 评论 -
使用flask调用接口去加载模型和数据集,避免每次运行都会重复加载数据集或模型,节约大量等待时间
配置python程序debug/run,避免每次运行都会重复加载数据集或模型,节约大量等待时间使用轻量级的后端框架flask运行要加载的模型,作为后端,保持在后端运行调用程序时直接使用url访问即可需要用到的依赖包:pip install flask逐步构建首先新建一个文件运行flask的文件,文件名随便:from flask import Flask, requestapp = Flask(__name__)@app.route('/model', methods=['GET']原创 2022-03-22 10:44:13 · 3028 阅读 · 0 评论 -
[Paddle2.0学习之第四步](下)词向量之CBOW
[Paddle2.0学习之第四步](下)词向量之CBOW:https://blog.csdn.net/qq_41976613/article/details/118977184转载 2022-03-21 15:06:31 · 135 阅读 · 0 评论 -
关于PaddleNLP如何加载训练好的模型进行NER
加载训练好的模型去进行测试原创 2022-03-21 13:51:06 · 1281 阅读 · 0 评论 -
检索式问答以及评论观点抽取+情感分析
3款开发者神器,快速搭建「检索、问答、情感分析」应用! 人工智能与算法学习 于 2021-12-30 08:10:...转载 2022-03-15 14:23:11 · 678 阅读 · 0 评论 -
知识图谱-数据集
原文链接:https://blog.csdn.net/qq_21097885/article/details/104562276 DBpedia 网址:https://wiki.dbpedia.org/ 简介: DBpedia 是一个很特殊的语义网应用范例,它从维基百科(Wiki转载 2021-08-25 17:23:11 · 1948 阅读 · 0 评论 -
AINLP-Archive:AINLP文章存档计划
AINLP-Archive:AINLP文章存档计划:https://mp.weixin.qq.com/s/dCzmlRLTb0aSxkq7jefc_g原创 2021-08-09 16:45:06 · 176 阅读 · 0 评论 -
复杂语境下的实体关系抽取
复杂语境下的实体关系抽取https://mp.weixin.qq.com/s/NAyuYMLDyx9Fut2blpvbRA原创 2021-07-30 13:19:13 · 199 阅读 · 0 评论 -
TPLinker 联合抽取 实体链接方式+源码分析
关系抽取–TPLinker: https://blog.csdn.net/weixin_42223207/article/details/116425447TaggingTPLinker模型需要对关系三元组(subject, relation, object)进行手动Tagging,过程分为三部分:(1)entity head to entity tail (EH-TO-ET)(2)subject head to object head (SH-to-OH)(3)subject tail to原创 2021-07-27 13:55:02 · 2392 阅读 · 0 评论 -
[中文事件抽取]DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Lab
[中文事件抽取]DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Lab: ACL 2018DCFEE: A Document-level Chinese转载 2021-07-20 09:54:21 · 1205 阅读 · 1 评论 -
常见中文NER数据集大盘点
常见中文NER数据集大盘点https://zhuanlan.zhihu.com/p/164966421原创 2021-07-15 15:48:07 · 8617 阅读 · 1 评论 -
文本数据增强+NER
CMU & MILA & 谷歌 | 三家巨头发布史上最干文本增强总结https://mp.weixin.qq.com/s/DFGLI25OV4vDnezxPxYIvQ打开你的脑洞:NER如何进行数据增强 ?https://zhuanlan.zhihu.com/p/342032812竞赛总结:天池中医药实体识别https://mp.weixin.qq.com/s/FkkLFddkWLtZ9SHX8a1tFA基于数据增强的中文医疗命名实体识别https://www.doc88.co原创 2021-07-14 10:17:20 · 617 阅读 · 0 评论