自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 关系 (国籍) 提取 Relation (Nationality) Extraction

问题描述:从文本中提取实体关系,目标提取的关系类型是国籍。训练数据集:json文件,读取为字典形式,包含的key及其对应的值类型分别为:tokens(list): 文本的分词列表entities(dictionary): 实体列表包含的key: start: 实体的起始分词id, end: 实体的结束分词id, label: 实体的类型relations(dictionary)包含的key: a, b, a_start, b_start, relationlemma(list)

2021-12-11 19:27:06 265

原创 使用Transformer进行英文书籍类型 (多) 分类

问题描述:对英文书籍进行分类,类型一共有四种:恐怖,科幻,幽默和犯罪。训练数据集:英文书籍的一部分文字及对应标签,以及书籍的id,保存在工作路径下。样本举例如下:使用的预训练模型:"bert-base-uncased",为啥选这个模型嘞,因为它比较小,毕竟用Transformer太费算力了,自己租GPU压力还是很大的(T▽T)1 import使用的packagesimport torchfrom transformers import BertTokenizerFast, Ber

2021-12-05 21:57:22 807

原创 使用逻辑回归和词向量进行(英文)电影评论情感(二)分类

问题描述:对电影评论进行情感分类,类型一种有两种:正面评价 (pos) 和负面评价 (neg)。训练数据集:英文电影评论及对应的分类标签,保存在工作路径下。样本举例如下:使用的算法:sklearn 逻辑回归 (logistic regression)使用的词向量:Word2Vec 预先下载并保存在工作路径下。1 import使用的packagesimport numpy as npimport pandas as pdfrom sklearn.linear_model impo

2021-12-03 21:24:08 1161 2

原创 频繁模式挖掘 (Frequent pattern mining):01 概念篇 (附例题)

频繁模式挖掘及相关的基本概念,包括项目 (item),项目集 (itemset),k-项目集 (k-itemset),交易 (transaction),包含 (contain),支持量 (support count),支持度 (support),最小支持度阈值,频繁项 (frequent item),关联规则 (association rule),关联规则支持度,置信度 (confidence),最小置信度阈值,强规则 (strong rule)。

2021-11-26 19:51:55 790

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除