自然语言处理
文章平均质量分 86
自然语言处理项目及文章
Suprit
先选择一种经历,经历再造就一个人
展开
-
ABSA综述解读
A Survey on Aspect-Based Sentiment Analysis: Tasks, Methods, and Challenges本文主要针对《A Survey on Aspect-Based Sentiment Analysis: Tasks, Methods, and Challenges》这篇ABSA领域很有价值且最新的综述进行解读,转换成通俗易懂的中文文章,以供大家便捷阅读,其中参考文献可以参考原文。**基于方面的情感分析(aspect-based sentiment a原创 2022-04-14 19:04:56 · 2749 阅读 · 0 评论 -
知识图谱基础【通俗易懂】
知识图谱基础(知乎系列博文)本文从一个例子出发娓娓道来阐述了知识图谱的来源、结构,值得一学,参考链接:https://zhuanlan.zhihu.com/p/31726910https://zhuanlan.zhihu.com/p/31864048https://zhuanlan.zhihu.com/p/32122644什么是知识图谱知识图谱(Knowledge Graph)是一个将现实世界映射到数据世界,是由节点和边组成的语义网络,其中节点代表物理世界中的实体或概念,边表示实体与实体的属性或原创 2022-02-19 21:49:36 · 11962 阅读 · 1 评论 -
文本表示与文本特征提取的区别
文本表示与文本特征提取的区别文本表示的作用就是将文本的非结构化的信息转化为结构化的信息,例如独热编码:猫:[1,0,0,0]狗:[0,1,0,0]牛:[0,0,1,0]羊:[0,0,0,1]词袋模型:句子1:我/有/一个/苹果句子2:我/明天/去/一个/地方句子3:你/到/一个/地方句子4:我/有/我/最爱的/你句子 1 特征: ( 1 , 1 , 1 , 1 , 0 , 0 , 0 , 0 , 0 , 0 )句子 2 特征: ( 1 , 0 , 1 , 0 , 1 , 1 ,原创 2021-12-28 16:35:56 · 1159 阅读 · 0 评论 -
BPE 算法原理及使用指南【深入浅出】
本文力争通俗易懂,但由于牵扯的知识较多,我也是参考了很多文章才弄清楚 BPE、Subword(子词)、WordPiece、Tokenize、Vocabulary(词表)这些词之间的关系(吐槽一句全是英文真不友好),请耐心按顺序往下看,一定不会让你失望:1. 从分词说起只要您稍微学过一点 NLP,对于分词这个概念肯定不陌生。机器无法直接理解自然语言的文本,我们需要进行文本预处理 ,而最重要的一步就是分词(Tokenize) 。一些概念一个完整的分词流程如下:其中,执行分词的算法模型称为分词器(To原创 2021-12-21 16:45:06 · 9585 阅读 · 2 评论 -
自然语言处理—文本分类综述/什么是文本分类
最近在学习文本分类,读了很多博主的文章,要么已经严重过时(还在一个劲介绍SVM、贝叶斯),要么就是机器翻译的别人的英文论文,几乎看遍全文,竟然没有一篇能看的综述,花了一个月时间,参考了很多文献,特此写下此文。思维导图https://www.processon.com/mindmap/61888043e401fd453a21e978文本分类简介文本分类(Text Classification 或 Text Categorization,TC),又称自动文本分类(Automatic Text Cate原创 2021-11-22 15:19:25 · 19423 阅读 · 3 评论 -
《自然语言处理入门》何晗阅读笔记—第1章:自然语言处理基础概念
第 1 章-自然语言处理基础概念什么是自然语言处理自然语言处理(Natural Language Processing,NLP)是一门融合了计算机科学、人工智能以及语言学 的交叉学科。自然语言是人工智能的一个领域。自然语言处理的终极目标是理解人类语言或人工智能 。自然语言概述人类独有的自然语言非常独特,仔细思考一下,我们日常中每天都在用的自然语言(尤其是中文)具有高度灵活 的特点。⭐️ 自然语言与编程语言的对比我们不妨拿自然语言与编程语言从以下几方面做个对比:1. 词汇量自然语言的词原创 2021-11-22 09:06:50 · 1816 阅读 · 0 评论 -
中文邮件文本分类项目【简易上手的nlp实战项目】
项目介绍文本分类是自然语言处理的应用领域之一,文本分类是很多其他任务的基本型。本项目是一个最简单的二分类问题。本项目会介绍如何将文本数据转化为数值型的特征数据(提取文本特质)。然后,使用机器学习当中的支持向量机算法,用 Python 实现对 10001 个邮件样本进行分类的任务。知识点自然语言处理基本概念支持向量机算法TF-IDF文本分类简介文本分类技术在自然语言处理领域当中,有着十分重要的地位。一般而言,文本分类是指在一定的规则下,根据内容自动确定文本类别这一过程。文本分类原创 2021-10-04 16:39:44 · 1458 阅读 · 0 评论 -
起点中文网小说文本分类项目【简易上手的nlp实战项目】
小说文本分类任务代码链接https://github.com/a1097304791/fiction-classification数据集数据集有从起点中文网上爬取的13个分类,每个分类20本,每本10章,共260部小说,3600章。所用算法采用支持向量机(SVM)算法,考虑使用一对多法,训练时依次把某个类别的样本归为一类,其他剩余的样本归为另一类,这样k个类别的样本就构造出了k个SVM。分类时将未知样本分类为具有最大分类函数值的那类。1. 加载数据集从文件夹读取数据,按照种类名->对应原创 2021-10-04 16:39:02 · 4319 阅读 · 5 评论