NLP
2tong杂货铺
哈尔滨工业大学 计算机科学与技术 硕士
展开
-
关于中文预训练模型泛化能力挑战赛学习札记
先留个坑原创 2021-02-21 00:29:32 · 191 阅读 · 0 评论 -
零基础入门NLP_Task6 基于深度学习的文本分类3_Bert
Task6 基于深度学习的文本分类3Author: 2tong与传统机器学习不同,深度学习既提供特征提取功能,也可以完成分类的功能。BertBERT是一个基于Transformer的多层Encoder,通过执行一系列预训练,进而得到深层的上下文表示。相关知识Transformer原理Transformer模型的编码部分是一组编码器的堆叠(论文中依次堆叠六个编码器),模型的解码部分是由相同数量的解码器的堆叠。####### 相关论文Attention is All You Need原创 2020-08-04 23:49:19 · 811 阅读 · 0 评论 -
零基础入门NLP_Task5_基于深度学习的文本分类2_Word2vec
Task5 基于深度学习的文本分类2Author: 2tong与传统机器学习不同,深度学习既提供特征提取功能,也可以完成分类的功能。Word2vec基础知识word2vec模型背后的基本思想是对出现在上下文环境里的词进行预测。对于每一条输入文本,我们选取一个上下文窗口和一个中心词,并基于这个中心词去预测窗口里其他词出现的概率。因此,word2vec模型可以方便地从新增语料中学习到新增词的向量表达,是一种高效的在线学习算法(online learning)。word2vec的主要思路:通过单词原创 2020-07-31 21:42:35 · 267 阅读 · 0 评论 -
零基础入门NLP_Task4_基于深度学习的文本分类1 学习笔记
Task4 基于深度学习的文本分类1Author: 2tong与传统机器学习不同,深度学习既提供特征提取功能,也可以完成分类的功能。以FastText为例,学习基于深度学习的文本分类。FastText基本信息FastText是一种典型的深度学习词向量的表示方法,它非常简单通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Embedding空间中进行平均,进而完成分类操作。所以FastText是一个三层的神经网络,输入层、隐含层和输出层。和TF-IDF比较FastTe原创 2020-07-26 22:02:55 · 156 阅读 · 0 评论 -
零基础入门NLP_Task03_基于机器学习的文本分类_学习笔记
Task3 基于机器学习的文本分类 学习笔记Author: 2tong文本表示方法1.One-hot这里的One-hot与数据挖掘任务中的操作是一致的,即将每一个单词使用一个离散的向量表示。具体将每个字/词编码一个索引,然后根据索引进行赋值。One-hot表示方法的例子如下:句子1:我 爱 哈 尔 滨句子2:我 喜 欢 橙 子首先对所有句子的字进行索引,即将每个字确定一个编号:{ '我': 1, '爱': 2, '哈': 3, '尔': 4, '滨': 5, '喜': 6,原创 2020-07-25 22:55:29 · 113 阅读 · 0 评论 -
零基础入门NLP_Task2_数据读取与数据分析 学习笔记
Task2 数据读取与数据分析 学习笔记Author: 2tong教程学习1.数据读取>>> import pandas as pd>>> train_file = './data/train_set.csv'>>> train_df = pd.read_csv(train_file, sep='\t', nrows=100)>>> train_df.head() label原创 2020-07-22 21:24:56 · 129 阅读 · 0 评论 -
零基础入门NLP之新闻文本分类_赛题理解_学习笔记
Author: 2tongRef: 零基础入门NLP之新闻文本分类Task1 赛题理解 学习笔记基本信息1. 赛题目标2. 赛题任务3. 赛题数据3.1 数据大小3.2 数据格式解题思路1.赛题本质2.赛题难点3.赛题指标4.赛题分析技术储备1.分类问题常用评价指标2.TF-IDF基本信息1. 赛题目标接触NLP的预处理、模型构建和模型训练等知识点2. 赛题任务以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。3. 赛题数据3.1 数据大小train..原创 2020-07-20 23:39:22 · 199 阅读 · 0 评论