文本挖掘,情感分类
文章平均质量分 86
个人积累
语译分西
这个作者很懒,什么都没留下…
展开
-
用spacy切词,筛选特定词性
import spacynlp = spacy.load("en_core_web_lg")# 读取停用词列表from nltk.corpus import stopwords stopword_list = list(stopwords.words('english'))add_stopword_list = ["'s",'also','even']stopword_list+=add_stopword_list# pos_tag = ['JJ','JJR','JJS','RB','R原创 2021-02-01 14:22:09 · 855 阅读 · 0 评论 -
Semeval 14 restaurant 实战
文章目录1.准备数据1.1 准备训练数据1.2 准备测试数据2.训练模型2.1 导入模块2.2 限制tensorflow使用GPU2.3 加载数据集2.3 对文本进行切词2.4 将term,[SEP] 添加到分词后的文本列表中2.5 查看每个句子分词后有多长,来决定max_length(可选)2.6 将训练数据分出一部分作为验证集,然后分成x,y2.7 创建数据迭代器2.8 构建模型2.9 模型保存2.10 模型评估3.加载训练好的模型,进行应用1.准备数据1.1 准备训练数据用的是原始的xml数据原创 2021-01-27 19:51:57 · 886 阅读 · 0 评论 -
Simple Transformers文档翻译(提示和技巧)
文章目录1. 可视化支持 Visualization support2. 提早停止训练 Early stopping3.其他模型评估指标 Additional Evaluation Metrics4. 对模型预测结果进行可视化 Simple-Viewer5. 超参数优化5.1 设置 sweep1.method:明确搜索策略2. metric:明确要优化的指标metric3.parameters: 指定超参数和对应的值5.2 初始化sweep5.3 准备数据和默认的模型配置(举例)5.4 设置训练函数5.5翻译 2021-01-19 09:17:14 · 1821 阅读 · 0 评论 -
基于Aspect的情感分析
文章目录1.数据预处理1.1数据集1.2 数据预处理步骤2.主题建模Topic modelling3.情感分析4.观察结果当创建一个成功的商业,其中最重要的元素是与顾客的沟通和关系。然而主要挑战是,随着用户基数的不断提升,产生的数据量也越来越庞大,而且大部分是以自然语言的形式存在。这些数据来自用户的反馈会来自社交媒体,顾客传达他们的想法和意见。而真正的挑战是自动将这些数据解析并组织成更易消化和可行的见解。其中一种方法是情感分析。一个意见opinion可以定义为四种元素的组合(实体,意见持有者,主张,情翻译 2021-01-08 10:19:15 · 1499 阅读 · 1 评论 -
7.GitHub pytorch sentiment analysis(词向量详解embedding)
文章目录1.embedding 概述2.加载GloVe词向量2.1 我们可以看看属性靠前的10个词分别是2.2 看某个词的索引是2.3 获取某个词的词向量3. 查找某个词最近的有哪些词(查找近义词)4.类比5. 纠正拼写错误1.embedding 概述Embeddings是将一个one-hot encoded 的稀疏向量转化成一个更小的实数向量。这些word embeddings的一个重要概念是,越类似的词靠得越近,也就是欧氏距离越近。举例:“I purchased some items at the翻译 2021-01-07 19:33:05 · 530 阅读 · 0 评论 -
6.GitHub pytorch sentiment analysis(使用自己的数据集)
文章目录Using TorchText with Your Own Datasets1.读取JSON2.创建数据集3.读取CSV/TSV 文件Using TorchText with Your Own Datasets之前都是用的IMDB数据集,他是TorchText自带的。TorchText还有其他的数据集,包括分类,语言模型,是否是连续句子等等然而大部分时间使用自己的数据,TorchText会帮你一般步骤:定义Fields加载数据集created the splitsTorchText可翻译 2021-01-07 09:58:26 · 445 阅读 · 0 评论 -
5.GitHub pytorch sentiment analysis(Transformer版)
文章目录Transformers for Sentiment Analysis1.设置随机种子2.加载transformer,并tokenize3.设置特殊token4.定义模型要训练时每个句子的最大长度5.定义一个分词函数6.定义fields7.加载数据8.为Labels创建词汇表(数值化)9. 创建迭代器iterators+开启GPU10.加载预训练BERT模型+构建分类器11.将模型实例化12.计算有多少个参数13. 冻住transformer不让其训练14.构建优化器和损失函数15.定义精确度函数1翻译 2021-01-06 16:00:49 · 783 阅读 · 0 评论 -
4.GitHub pytorch sentiment analysis(多类版multi-class)
文章目录Multi-class Sentiment Analysis1.加载数据2.构建词向量,词表3.查看labels4.设置iterators迭代器5.创建模型6.实例化模型7.数模型中有多少个参数需要训练8.加载预训练词向量到模型中9.将unknwon,padding tokens的向量进行0初始化10.设置损失函数10.构建精确度函数11.构建训练函数12.构建评估函数13.构建计时模块14. 正式训练https://github.com/bentrevett/pytorch-sentiment-翻译 2021-01-06 11:09:51 · 392 阅读 · 0 评论 -
3.GitHub pytorch sentiment analysis(Fast版)
文章目录FastTest model1.准备数据构建模型构建FastText实例查看有多少模型参数将预训练词向量传进模型中的embedding layer层将unknown 和 pad token 的词向量初始化为0设置优化器定义损失函数定义求精确度的函数定义训练函数定义评估函数定义计算耗时的函数训练模型测试实际预测FastTest model这篇文章会采用"FastText"模型,跟之前的LSTM的84%左右的精确度相比差不多,但速度快上一倍,只需要训练LSTM一般的模型参数。1.准备数据Fast翻译 2021-01-05 19:54:59 · 212 阅读 · 0 评论 -
2.GitHub pytorch sentiment analysis(进阶版)
文章目录Updated Sentiment Analysis1.准备数据2.词向量3.创建迭代器+使用GPU4. 构建模型5. 实例化模型+传入参数6.训练模型6.1 设置优化器6.2 设置损失函数,和GPU6.3 计算精确度6.3 定义一个训练函数,用来训练模型6.4 定义一个测试函数6.5 正式训练模型Updated Sentiment Analysis在前一章,我们做了基础的情感分析,在这一章,我们会得到一个更好的分类结果我们会使用packed padded sequencespre-tra翻译 2021-01-05 16:55:39 · 594 阅读 · 0 评论 -
1.简单的GitHub pytorch sentiment analysis
文章目录1 - Simple Sentiment Analysis2 - 介绍3 - 准备数据3.1 构建词汇表3.2 构建迭代器4. 构建模型5.训练模型5.1 构造优化器5.2 定义损失函数5.3 训练函数5.4 评估模型6.正式训练7.测试1 - Simple Sentiment Analysis在这篇文章中,会构建一个机器学习模型来检测句子的情感,使用PyTorch和TorchTest,使用的是IMDb dataset最开始,只是做个简单的介绍,便于理解概念,并不关心是否会得到好的分类结果.之翻译 2021-01-04 18:43:07 · 597 阅读 · 0 评论 -
Transformer+BERT 推特文本分类(是否抱怨)
文章目录1.基础设置2.下载/导入数据集2.1 下载数据集2.2 Load Train Data2.3 Load Test Data3. 设置GPU/CPU来训练4.Fine-tuning BERT4.1 对原始文本进行轻微的数据处理4.2 BERT Tokenizer 相关函数构建4.3 确定输入句子的固定长度4.4 tokenize data 正式对数据进行分词4.5 创建PyTorch DataLoader5.训练模型Train model5.1 创建 BertClassifier5.2 创建优化器和翻译 2020-12-30 10:48:41 · 4545 阅读 · 2 评论 -
使用pytorch和卷积神经网络对MINST数字图像进行分类,实战代码
文章目录导入包读取数据卷积网络模块构建设置评估标准为accuracy训练网络模型导入包import torchimport torch.nn as nnimport torch.optim as optim #神经网络反向传播后,要更新每个节点的权重参数,进行优化optimizationimport torch.nn.functional as Ffrom torchvision import datasets,transforms import matplotlib.pyplot as pl翻译 2020-12-15 15:01:42 · 1003 阅读 · 1 评论 -
Sentiment Analysis with BERT Pytorch【半成品】
文章目录导入各种包,设置基本参数import transformersfrom transformers import BertModel, BertTokenizer, AdamW, get_linear_schedule_with_warmupimport torchimport numpy as npimport pandas as pdimport seaborn as snsfrom pylab import rcParamsimport matplotlib.pyplot as翻译 2020-12-11 15:23:43 · 436 阅读 · 0 评论 -
Transformer: Training and fine-tuning(六)
文章目录1.Fine-tuning in native本地 PyTorch1.Fine-tuning in native本地 PyTorch模型类model class不是以TF开头的都是以Pytorch来运行的。接下来考虑微调fine-tune一个BERT模型来做句子分类任务。当我们使用from_pretrained()实例化一个模型时,所指定模型的配置configuration 和预训练的权重会被用于初始化模型,这个库library也会包含一些指定任务(task-specific)的最后一层fin翻译 2020-12-09 19:43:43 · 1827 阅读 · 1 评论 -
Transformer: Preprocessing Data (五)
文章目录1. Base Use 基本用途2.Preprocessing pairs of sentences 句子对得预处理3.Everything you always wanted to know about padding and truncation4.Pre-tokenized inputs正如quickstar中描述的,我们使用tokenizer来讲句子进行分词,切成许多个tokens,然后将其转化成数字,再转化成矩阵/向量,这样才能传输进模型中。记住用什么模型,就要用其对应的tokenize翻译 2020-12-08 21:28:09 · 1141 阅读 · 0 评论 -
Transformer:Summary of Model (四)
文章目录1.Autoregressive models1.1几种自回归模型介绍2.Autoencoding models2.1 BERT2.2 ALBERT2.3 RoBERTa2.4 DistilBERT2.5 还有许多3.Sequence-to-sequence models4.Multimodal models网页地址:https://huggingface.co/transformers/model_summary.html#autoregressive-modelsTransformer模型翻译 2020-12-07 19:01:48 · 501 阅读 · 0 评论 -
Transformer: Summary of Task(三)
文章目录Summary of the tasks (Transformer主要用于哪些任务)1.Sequence Classification2.Extractive Question Answering3.Language ModelingMasked Language Modeling4.Causal因果 Language Modeling5.Text Generation6. 命名实体识别Named Entity Recognition7. Summarization8.Translation 翻译翻译 2020-12-07 11:41:25 · 883 阅读 · 0 评论 -
Transformer 快速入手get start
文章目录1.pretrained models2.使用模型3.调参Customizing the modelhttps://huggingface.co/transformers/quicktour.html在transformer官网,的快速入手中,会提供些pipeline,封装了些实例,让我们快速上手,只需要简单的调用就能实现,分词,命名实体识别。from transformers import pipelineclassifier = pipeline('sentiment-analysis'原创 2020-12-06 17:38:20 · 710 阅读 · 0 评论 -
Transformer 理解Tokenizer
文章目录1.tokenizer1.介绍1.1 Subword tokenization1.Byte-Pair Encoding (BPE)2.Byte-level BPE3.wordpiece4.Unigram5.SentencePiece1.tokenizer1.介绍from transformers import AutoTokenizer, AutoModelForSequenceClassificationmodel_name = "distilbert-base-uncased-finet原创 2020-12-06 13:52:13 · 8908 阅读 · 0 评论 -
NLP录播课笔记一
文章目录一、NLP定义及歧义性(视频3)二、机器翻译case study(视频4-5)2.1 如何做一个简单的机器翻译呢?2.2三、NLP的应用场景(视频6)一、NLP定义及歧义性(视频3)NLP = NLU + NLGNatural Language Understanding:通过文本理解其意思Natural Language Generation:通过意思meaning生成文本为什么NLP 比CV(computer vision)更难?因为计算机视觉,图像所见即所得,而人看文本是看他背后所原创 2020-11-25 15:54:07 · 1347 阅读 · 0 评论 -
TYD-python数据分析与机器学习实战(文本挖掘部分笔记)
文章目录一、19章 Python文本数据分析:新闻分类任务1.1 TF-IDF:关键词提取1.2 文档相似度1.3 TF-IDF结巴提取1.4 LDA主题模型一、19章 Python文本数据分析:新闻分类任务1.1 TF-IDF:关键词提取TF就是Term Frequency 词频,IDF 是Inverse Document Frequency1.对语料/文本进行词频统计(Term Frequency),比如说对《中国的蜜蜂养殖》这个文本进行统计2.出现最多的是:的,是,在等常用词,也就是停用词,原创 2020-11-17 11:14:03 · 351 阅读 · 0 评论 -
唐YD深度学习入门视频课程
文章目录一、LSTM1.1 控制参数C 如何有选择地丢弃无用数据1.2 如何保存信息1.3 丢弃数据+保留数据后更新控制参数C1.4 更新完控制参数C后,输出数据1.5 总结二、LSTM情感分析2.1介绍2.2 实际流程学习网址:唐YD深度学习入门视频课程章节6章最后一讲,和第七章一、LSTMRNN网络的缺点是,所有属性信息都会记下来,不会遗忘。而LSTM比RNN多了个C:控制参数,保留有价值的信息那么是如何C控制参数是如何保留信息的呢?是通过下图中的门单元,让信息选择式通过门单元可以原创 2020-11-16 16:53:08 · 365 阅读 · 0 评论 -
自然语言处理--实战分词NLP
文章目录一、分词方法1.1 规则分词1.1.1 正向最大匹配1.1.2 逆向最大匹配1.1.3 双向最大匹配1.1.4 错误率比较1.2 统计分词1.2.1 主要思路1.2.2 语言模型1.2.3 隐马尔可夫HMM模型思路1.3 混合分词(规则+统计)一、分词方法分词的难点:对歧义词的识别1.1 规则分词基于词库里的一个个词进行切词,缺点是不能处理新词经典算法:正向最大匹配,逆向最大匹配,双向最大匹配1.1.1 正向最大匹配1.统计词典内最长的词有多少字?记为最长词长m2.对一个句子从左往右原创 2020-11-16 08:34:42 · 450 阅读 · 0 评论