lohaive1015-CSDN博客

原创关系 (国籍) 提取 Relation (Nationality) Extraction

问题描述：从文本中提取实体关系，目标提取的关系类型是国籍。训练数据集：json文件，读取为字典形式，包含的key及其对应的值类型分别为：tokens(list): 文本的分词列表entities(dictionary): 实体列表包含的key: start: 实体的起始分词id, end: 实体的结束分词id, label: 实体的类型relations(dictionary)包含的key: a, b, a_start, b_start, relationlemma(list)

2021-12-11 19:27:06 410

原创使用Transformer进行英文书籍类型 (多) 分类

问题描述：对英文书籍进行分类，类型一共有四种：恐怖，科幻，幽默和犯罪。训练数据集：英文书籍的一部分文字及对应标签，以及书籍的id，保存在工作路径下。样本举例如下：使用的预训练模型："bert-base-uncased"，为啥选这个模型嘞，因为它比较小，毕竟用Transformer太费算力了，自己租GPU压力还是很大的(Ｔ▽Ｔ)1 import使用的packagesimport torchfrom transformers import BertTokenizerFast, Ber

2021-12-05 21:57:22 1041

原创使用逻辑回归和词向量进行(英文)电影评论情感(二)分类

问题描述：对电影评论进行情感分类，类型一种有两种：正面评价 (pos) 和负面评价 (neg)。训练数据集：英文电影评论及对应的分类标签，保存在工作路径下。样本举例如下：使用的算法：sklearn 逻辑回归 (logistic regression)使用的词向量：Word2Vec 预先下载并保存在工作路径下。1 import使用的packagesimport numpy as npimport pandas as pdfrom sklearn.linear_model impo

2021-12-03 21:24:08 1405 2

原创频繁模式挖掘 (Frequent pattern mining)：01 概念篇 (附例题)

频繁模式挖掘及相关的基本概念，包括项目 (item)，项目集 (itemset)，k-项目集 (k-itemset)，交易 (transaction)，包含 (contain)，支持量 (support count)，支持度 (support)，最小支持度阈值，频繁项 (frequent item)，关联规则 (association rule)，关联规则支持度，置信度 (confidence)，最小置信度阈值，强规则 (strong rule)。

2021-11-26 19:51:55 1178