![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
文章平均质量分 87
ㄣ知冷煖★
CSDN人工智能领域优质创作者、阿里云专家博主、腾讯云开发者内容共创官、百林哲教育专家、全国3D建模大赛国奖获得者、省奖若干、Kaggle竞赛银牌若干、在职算法工程师,计算机硕士。
展开
-
【从0开发】百度BML全功能AI开发平台【实操:以部署情感分析模型为例】
全功能AI开发平台是一个综合性的平台,旨在支持各种人工智能(AI)应用的开发、部署和管理。这些平台通常提供一系列工具、库和服务,以帮助开发者、数据科学家和工程师创建和操作各种类型的AI应用。原创 2023-10-12 14:55:42 · 2894 阅读 · 8 评论 -
【完全攻略】畅游NLP海洋:HuggingFace的快速入门
Hugging Face是一个以自然语言处理(NLP)为重点的技术公司,也是一个开源社区和平台,旨在提供丰富的NLP模型、工具和资源。Hugging Face的目标是成为NLP领域的社区和创新驱动者,他们通过为开发者和研究人员提供开源工具、预训练模型和数据集来实现这一目标。Hugging Face的开源库和工具广泛应用于各种NLP任务,包括文本分类、命名实体识别、情感分析、机器翻译等。原创 2023-07-19 17:30:52 · 2262 阅读 · 0 评论 -
百度ERNIE 3.0——中文情感分析实战
ERNIE(Enhanced Representation through kNowledge IntEgration)是百度研发的一种基于深度学习的预训练语言模型。它通过大规模的无监督学习从大量文本数据中学习语义和知识表示。原创 2023-07-14 14:18:58 · 3592 阅读 · 4 评论 -
数据处理轻松搞定:如何利用PaddleNLP高效处理大规模文本数据
PaddleNLP是一个基于PaddlePaddle深度学习平台的自然语言处理(NLP)工具库。它提供了一系列用于文本处理、文本分类、情感分析、机器翻译、文本生成等任务的预训练模型、模型组件和工具函数。原创 2023-07-11 14:10:03 · 5210 阅读 · 6 评论 -
超越传统标注方法:doccano平台提供智能化数据标注解决方案
Doccano是一种用于文本标注的开源工具,旨在简化和加速标注任务的进行。它提供了一个直观的用户界面,使标注人员能够轻松地对文本数据进行标注,并创建高质量的训练数据集用于机器学习和自然语言处理任务。原创 2023-07-07 11:26:09 · 3592 阅读 · 0 评论 -
探索Facebook NLP框架Fairseq的强大功能
FairseqFairseq是由Facebook AI Research开发的一个序列到序列模型工具包,用于自然语言处理和语音识别任务。它支持各种模型架构,包括卷积神经网络(CNNs)、循环神经网络(RNNs)和Transformer模型。Fairseq的设计理念是提供灵活、可扩展和高效的工具,以便研究人员和开发人员能够快速构建、训练和部署各种序列到序列模型。Fairseq支持多种训练和推理技术,例如自监督学习、多任务学习、知识蒸馏和模型融合等。原创 2023-04-06 13:54:45 · 3077 阅读 · 3 评论 -
深入探究neo4j: 完全指南(安装、常用命令、错误汇总、python连接)
Neo4j是一个基于图形数据模型的NoSQL数据库管理系统。Neo4j是一种图形数据库管理系统,它使用图形模型来存储和处理数据。它被广泛用于各种领域,包括社交网络、网络安全、生命科学、金融服务和知识管理。Neo4j的图形模型由节点和边组成。节点代表实体或对象,边表示它们之间的关系。节点和边都可以拥有属性,这些属性可以是任何类型的数据。Neo4j的图形模型可以轻松地表示复杂的关系和连接,并且支持深度查询和数据可视化。Neo4j提供了丰富的查询语言Cypher,它是一种用于查询图形数据的声明性语言。原创 2023-03-17 18:24:36 · 4101 阅读 · 0 评论 -
Huggingface Transformers各类库介绍(Tokenizer、Pipeline)
Huggingface是一家在NLP社区做出杰出贡献的纽约创业公司,其创建的库Transformers被广泛使用,Transformers提供了数以千计针对于各种任务的预训练模型模型,开发者可以根据自身的需要,选择模型进行训练或微调,也可阅读api文档和源码, 快速开发新模型。:就是输入的待编码的序列(或1个batch的),可以是字符串或字符串列表。原创 2022-12-01 17:43:05 · 2156 阅读 · 7 评论 -
Pytorch介绍以及基本使用、深入了解、案例分析。
Pytorch是torch的python版本,是由Facebook开源的神经网络框架,专门针对 GPU 加速的深度神经网络(DNN)编程,相比于Tensorflow,Pytorch简介易用。张量:张量是一种特殊的数据结构,与Numpy中的arrays非常相似,在Pytorch中,我们使用张量对模型的输入和输出以及模型的参数进行编码。注意:Tensors和Numpy中的数组具有底层内存共享,意味着不需要进行复制直接就可以相互转化。今天是周五哎,好耶。.....................原创 2022-08-05 16:51:31 · 16318 阅读 · 4 评论 -
(路透社数据集)新闻分类:多分类问题实战
对于路透社数据集的评论分类实战# 加载路透社数据集,包含许多短新闻及其对应的主题,它包含 46 个不同的主题。# 加载数据:训练数据、训练标签;测试数据、测试标签。# 将数据限定为前 10000 个最常出现的单词。(train_data , train_labels) ,(test_data , test_labels) = reuters . load_data(num_words = 10000) # 查看训练数据输出。......原创 2022-08-04 16:00:17 · 1556 阅读 · 0 评论 -
(imdb数据集)电影评论分类实战:二分类问题
对于imdb数据集的评论分类实战# 加载imdb数据集# 25000 条训练和 25000 条测试数据# 训练集和测试集都包含 50 % 的正面评论和 50 % 的负面评论。# 已经经历过预处理,评论,单词序列已经转化为整数序列。# 加载数据:训练数据、训练标签;测试数据、测试标签。# num _words = 10000 :保留训练数据中前 10000 个最常出现的单词,低频单词将被舍弃。这样得到的向量数据不会太大,便于处理。......原创 2022-08-04 15:35:04 · 1400 阅读 · 0 评论 -
SVM介绍以及实战
在龙岗的时候就在想着什么时候学习SVM了,回想起来好像已经过了很久很久了!SVM介绍SVM,全称是supportvertormachine,直译过来是支持向量机,属于监督学习算法。原理支持向量机是一个线性分类器,其定义在于找到一个界限,使得两边的样本都离这个界限足够远。这个界限被称之为超平面。超平面一般是直线或者是平面。在SVM中,样本点距离直线的距离,代表着样本分类的可信程度。最好的情况对于SVM来说,最好的分类情况是,超平面对每个类别最近的元素距离最远。优点劣势https。...原创 2022-08-01 19:03:02 · 2076 阅读 · 0 评论 -
文本分类算法TextCNN
TextCNN是在2014年,由韩国人YoonKim于2014年在“ConvolutionalNeuralNetworksforSentenceClassification”一文中提出的算法。整体结构一层卷积,一层最大值池化,最后将输出外接softmax来进行n分类。因为网络结构简单所以参数数目较少,计算量少,训练速度快。这是TextCNN的优势。第一层(WordEmbedding构建词向量)首先需要将输入语句进行分词,之后将每个词都映射成相应词向量。即词语数值化,方便后续处理。......原创 2022-07-22 15:28:35 · 1584 阅读 · 0 评论 -
从RNN、LSTM到GRU的介绍
循环神经网络(RNN),长短期记忆网络(LSTM),门限循环单元(GRU)。RNN原理:神经网络模块A,读取到某个输入x,并且输出一个值h,循环可以使得信息可以从当前一步传到下一步。RNN本质上是与序列和列表相关的。展开来看,RNN可以被看做是同一神经网络的多次复制,每一个神经网络模块都会把信息传递给下一个。展开上图的循环可以得到:注意:每一个神经网络模块所用的权重参数都是共享的,即权重共享。RNN的缺点:1、受到短时记忆的影响,如果一条序列足够长,那它们将很难将信息从较早的时间步传送到后面的时间步,原创 2022-06-15 15:24:26 · 869 阅读 · 2 评论 -
机器翻译——基于注意力机制的seq2seq结构
该项目是一个基于注意力机制的seq2seq结构的由英语和西班牙语互译的项目,一共有11万对句子,文章中训练使用到的数据对为3万,可以根据个人机器配置灵活调整。seq2seq结构介绍:seq2seq模型是以编码(Encode)和解码(Decode)为代表的架构方式,seq2seq模型是根据输入序列X来生成输出序列Y,在翻译,文本自动摘要和机器人自动问答以及一些回归预测任务上有着广泛的运用。以encode和decode为代表的seq2seq模型,encode意思是将输入序列转化成一个固定长度的向量,decode原创 2022-06-14 16:08:55 · 832 阅读 · 0 评论 -
selenium的简单实用以及实战
目录前言一、为什么要使用selenium1-1、什么是selenium?1-2、它的优点?1-3、它的缺点?二、配置、操作selenium的方法2-1、安装selenium的前置操作2-2、安装selenium并且测试是否安装成功。三、selenium基本API总结前言前言一、为什么要使用selenium1-1、什么是selenium?1、Selenium最初是一个Web的自动化测试工具,开始是为了网站的自动化测试开发的。2、它可以按照指定的命令自动操作。可以直接运行在浏览器上,支持所有的原创 2022-05-20 20:52:10 · 4860 阅读 · 10 评论 -
追踪问题——用Python Logging模块更轻松地诊断错误
目录前言一、logging.basicConfig()二、日志等级三、输出格式参数format。总结前言日志的作用是可以保存程序运行的日志,以便在排查程序崩溃的具体原因来定位bug进行抢救。logging可以灵活帮助我们记录程序运行过程的一些信息。/font>一、logging.basicConfig()# define: 顾名思义,basciConfig是用来设置一些日志的的配置参数# 参数介绍:# filename: 指定保存日志的文件名# filemode: 指定打开文件的模原创 2022-04-18 20:43:06 · 918 阅读 · 0 评论 -
“从零开始学习Python包开发:掌握Setuptools工具的使用“
目录前言一、介绍1-1、源码包sdist1-1-1、打包成源码包sdist1-1-2、安装源码包1-2、二进制包bdist1-2-1、打包成源码包bdist1-2-2、安装源码包bdist二、安装三、setup文件以及相关参数介绍3-1、setup文件简介3-2、setup其他参数介绍3-2-1、find_packages()函数和find_namespace_packages()函数3-2-2、include_package_data(MANIFEST.in)3-2-3、MANIFEST.in 文件介绍总原创 2022-04-01 11:21:51 · 6782 阅读 · 0 评论 -
自然语言处理工具Spacy使用笔记
目录前言一、Spacy的安装以及功能介绍1-1、Spacy的安装1-2、tokenize功能1-3、词干化1-4、词性标注1-5、命名实体识别1-6、名词短语提取二、总结前言Spacy是一个很强大的自然语言处理工具,支持多种自然语言处理的基本功能。主要功能有分词、词性标注、词干化、命名实体识别、名词短语提取等等一、Spacy的安装以及功能介绍1-1、Spacy的安装# notice:如果下载速度太慢请参见另一篇文章# https://blog.csdn.net/weixin_42475060原创 2022-03-14 18:20:05 · 2799 阅读 · 1 评论 -
正则表达式——re库的一些常用函数
目录前言一、主要函数介绍以及使用1-1、re.search()1-2、re.match()1-3、re.findall()1-4、re.split()1-5、re.finditer()1-6、re.sub()1-7、另一种用法二、正则表达式的常用操作符三、Match对象的相关属性四、注意事项总结前言Re库是Python的标准库,主要用于字符串匹配,调用方式:import re一、主要函数介绍以及使用如果不熟悉pattern内的操作符可以先看二。如果想要了解Match对象的相关属性可以先看三。原创 2022-03-11 10:29:37 · 1258 阅读 · 0 评论 -
kaggle比赛——Jigsaw Rate Severity of Toxic Comments(NLP类型)——分析获奖模型笔记
目录前言一、相关知识介绍1-1、比赛描述总结前言追求最前沿的技术是每个NLPer的基本操守!一、相关知识介绍Jigsaw Rate Severity of Toxic Comments原文.1-1、比赛描述参考文章:一文了解倒排表.总结...原创 2022-03-03 16:19:27 · 1352 阅读 · 0 评论 -
信息抽取的介绍
目录前言一、信息抽取的相关概念介绍二、命名实体识别(NER)所使用的方法2-1、利用规则2-2、投票模型2-3、利用分类模型总结前言信息抽取(information extraction),即从自然语言文本中,抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和重构。这些信息通常包括实体(entity)、关系(relation)、事件(event)。例如从新闻中抽取时间、地点、关键人物,或者从技术文档中抽取产品名称、开发时间、性能指标等。一、信息抽取的相关概念介绍非结构化数据:诸如图原创 2022-02-18 11:03:49 · 1820 阅读 · 0 评论 -
python库之—psycopg2
目录前言一、使用pycharm连接postgresSQL1-1、连接数据库1-2、关闭数据库1-3、cursor类1-4、使用python的configparser包来解析配置文件前言psycopg2库是python用来操作postgreSQL 数据库的第三方库。一、使用pycharm连接postgresSQL1-1、连接数据库try : conn = psycopg2.connect(database='postgres', user='postgres', password='xuha原创 2022-02-15 17:37:59 · 20762 阅读 · 2 评论 -
数据分析必学技能:混淆矩阵原理详解,Python调用实战
目录前言一、原理详解二、混淆矩阵的相关API介绍以及样例总结前言混淆矩阵用来评估分类的准确性。一、原理详解混淆矩阵:混淆矩阵是将真实值与预测值匹配以及不匹配的项一起放入到矩阵中,它可以清楚的反映出真实值和预测值相同的地方,也可以反映出与预测值不相同的地方,举一个多分类的例子。原创 2022-02-11 17:01:39 · 5659 阅读 · 0 评论 -
Gensim介绍以及实践
目录前言一、倒排表总结前言前言一、倒排表参考文章:一文了解倒排表.总结原创 2022-01-27 12:32:46 · 694 阅读 · 0 评论 -
维基百科的语料库下载以及信息提取笔记
目录前言一、前提知识1-1、中文维基百科的下载1-2、中文维基百科的下载1-3、中文维基百科的下载1-4、中文维基百科的下载1-5、中文维基百科的下载总结前言中文语料库一般都是极为稀少的,要进行中文词向量的训练可能是极为困难的,这时候我们需要使用中文维基百科来进行词向量的训练。一、前提知识1-1、中文维基百科的下载wiki语料库下载网址:https://dumps.wikimedia.org/.最近的中文wiki语料:https://dumps.wikimedia.org/zhwiki/la原创 2022-01-27 09:30:11 · 6250 阅读 · 0 评论 -
Beautiful Soup介绍
目录前言一、Beautiful Soup的安装以及导入二、Beautiful Soup的使用总结前言Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库,简单来说,它能将HTML的标签文件解析成树形结构,然后方便地获取到指定标签的对应属性。通过Beautiful Soup库,我们可以将指定的class或id值作为参数,来直接获取到对应标签的相关数据。简单来说,就是把html或者xml源代码进行了格式化,方便我们对其中的节点、标签、属性等进行进一步的操作。一、Be原创 2022-01-12 18:24:33 · 835 阅读 · 0 评论 -
NLP项目(二)——拼写纠错
目录前言一、数据集介绍1-1、spell-errors.txt1-2、vocab.txt1-3、testdata.txt二、拼写纠错代码总结前言在自然语言处理的过程中,我们常常会遇到一些拼写错误的单词,这时候我们需要用到拼写纠错来处理这些单词。一、数据集介绍1-1、spell-errors.txt# 该数据集包含正确的单词以及常见的拼写错误的单词。1-2、vocab.txt# 该数据集是一个词库,1-3、testdata.txt# 该数据集是测试集。二、拼写纠错代码im原创 2022-01-10 18:20:27 · 2196 阅读 · 1 评论 -
自然语言处理NLP面试问题
自然语言处理NLP面试问题前言一、二、三、四五、总结前言提前准备总归是好的嘛,每次入职都要准备跳槽来应对下一家更大的公司。一、手推逻辑回归朴素贝叶斯K邻近。SVM(一般不会手推,说一下最大间隔、KKT,核)决策树集成方法。二、CNNRNNlstm结构图梯度下降学习率各个激活函数:Sigmoid、Tanh、Relu、Leaky Relu、Eluattentionself-attentiontransformer结构图三、去除噪声、数据获取数据不平衡的处理:重采样原创 2021-12-31 16:56:35 · 3019 阅读 · 0 评论 -
自然语言处理概述及流程
目录前言一、自然语言处理的几个维度二、调包工程师需要掌握的一些技能2-1、理解算法复杂度总结前言准备走上自然语言处理调包工程师的路,所以有必要对整体的架构有一些清楚的认知。一、自然语言处理的几个维度声音(Phonetics)这里和自然语言处理调包工程师关系不大。单词(Morphology)1、分词2、词性标注POS3、命名实体识别NER:抽取句子中一些我们比较关心的词。句子结构(Syntax)1、句法分析2、依存分析(判断词之间有什么关系)3、关系抽取(Relation Ext原创 2021-11-18 17:22:25 · 2995 阅读 · 0 评论 -
Bert系列之——原理介绍
目录前言总结前言在开始Bert的学习之前,首先应该具备Transformer的基础,因为Bert就是基于Transformer的模型,如果还没没有了解Transformer模型,可以查看我的上一篇文章链接: Transformer笔记.# 一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。总结提示:这里对文章进行总结:例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷.原创 2021-11-17 14:35:28 · 1624 阅读 · 0 评论 -
文本处理技能与文本数据清洗、提取、分词与统计
目录前言一、Linux的一些常用命令?二、Python的一些常用操作三、常用的一些自然语言处理工具包1、nltk工具包2、四、常用的一些分词模型1、朴素贝叶斯2、N-gram模型总结前言在开始进行NLP的相关任务时,首先需要做一些预备工作,比如说数据清洗、提取等,接下来就让我们来看一下具体有哪些操作吧。一、Linux的一些常用命令?wc -l file: 看文件一共有多少行more file: 观察部分文件head -10 file: 查看文件的前10行内容更多Linux命令请查看我的另一篇原创 2021-11-05 16:45:07 · 5135 阅读 · 0 评论 -
【超详细】【原理篇&实战篇】一文读懂Transformer
Transformer是一种用于自然语言处理(NLP)和其他序列到序列(sequence-to-sequence)任务的深度学习模型架构,它在2017年由Vaswani等人首次提出。Transformer架构引入了自注意力机制(self-attention mechanism),这是一个关键的创新,使其在处理序列数据时表现出色。原创 2021-11-02 16:48:11 · 119181 阅读 · 24 评论