文本分类
文章平均质量分 94
Asia-Lee
计算机视觉,自然语言处理,深度学习等
展开
-
Bert文本分类(基于keras-bert实现)
目录一、Bert 预训练模型准备二、Bert 模型文本分类1、数据准备2、代码实现3、分类过程与结果一、Bert 预训练模型准备中文预训练模型下载 当Bert遇上Keras:这可能是Bert最简单的打开姿势 keras-bert不同模型的性能对比如下(可根据自己的数据选择合适的模型,模型越大需要训练的时间越长)模型 开发集 测试集...原创 2019-10-27 17:53:59 · 37747 阅读 · 66 评论 -
TextCNN文本分类(keras实现)
目录前言:一、论文笔记二、Keras文本预处理1、读取数据集2、将文字转换成数字特征3、将每条文本转换为数字列表4、将每条文本设置为相同长度5、将每个词编码转换为词向量6、Keras文本预处理代码实现三、基于keras的TextCNN模型的构建、训练与测试1、基础版CNN(模仿LeNet-5)2、简单版TextCNN3、使用Word2Vec词向量...原创 2019-03-26 19:23:46 · 82326 阅读 · 93 评论 -
XGBoost与LightGBM文本分类
目录用户评论情感极性判别一、数据准备二、数据预处理三、文本特征提取四、将数据转换为DMatrix类型五、构建XGBoost模型1、XGBoost模型主要参数(1)通用参数(2)Booster参数(3)学习目标参数2、XGBoost模型(1)基于XGBoost原生接口的分类(2)基于Scikit-learn接口的分类六、使用XGBoost做预测...原创 2019-07-06 13:00:56 · 11063 阅读 · 9 评论 -
基于树模型的lightGBM文本分类
目录1、基于TF的关键词提取2、根据词频将文本转化为向量3、基于树模型的重要特征选择5、完整代码实现6、分类结果1、基于TF的关键词提取使用TF词频对训练集clean_data_train进行关键词提取,选取topK个关键词作为特征词,即topK=10000。# 训练集中词频统计,并计算TF值def words_tf(): train_data = pd...原创 2019-08-28 21:42:42 · 4656 阅读 · 5 评论 -
中文文本分类——商品评论情感判别
目录1、数据集下载2、载入数据,做预处理(分词),切分训练集与测试集3、计算训练集和测试集每条评论数据的向量并存入文件4、获得训练集向量和标签,测试集向量和标签5、训练SVM模型6、构建待遇测句子的向量7、对单个句子进行情感判断1、数据集下载商品(书籍、酒店、计算机、牛奶、手机、热水器)等评论数据from sklearn.model_selection i...原创 2019-01-14 21:08:51 · 9846 阅读 · 17 评论 -
英文文本分类——电影评论情感判别
目录1、导入所需的库2、用Pandas读入训练数据3、构建停用词列表数据4、对数据做预处理5、将清洗的数据添加到DataFrame里6、计算训练集中每条评论数据的向量7、构建随机森林分类器并训练8、读取测试数据并进行预测9、将预测结果写入csv文件1、导入所需的库import osimport reimport numpy as npimport...原创 2019-01-15 18:12:21 · 8925 阅读 · 7 评论