自然语言处理
文章平均质量分 77
蛋王派
这个作者很懒,什么都没留下…
展开
-
LSTM分类模型
LSTM分类模型本文主要固定一个文本分类的流程。分为三个部分:数据处理。对分类文本数据集做简单的预处理。模型数据准备。处理上一步的结果,得到模型的输入样本。模型搭建和训练流程。程序架构如下:主要包括一个原始的分类文件(头条新闻)。一个预处理脚本prepare_data.py一个数据处理脚本data_loader.py一个训练过程脚本trainer.py一个模型文件lstm_model.py分类流程数据预处理将原始的文本进行预处理,原始文件形式如下:处理后文件如下,形式为原创 2022-03-14 23:08:30 · 11651 阅读 · 1 评论 -
Java 训练使用 XGBoost
Java 训练使用 XGBoost背景下载xgboost jar包地址:http://github.com/criteo-forks/xgboost-jars/releases/tag/导入jar包开发软件(Intellij) :File–>project structure–>Libraries–>"+" 导入刚下载的xgboost包。选择与操作系统相符的版本。(本文用的0.90–win64).数据准备数据集形式java版xgboost数据形式可以有两种。1原创 2021-09-14 19:19:17 · 3050 阅读 · 1 评论 -
Tensorflow实现CNN流程
引言Tensorflow是Google开发的大规模分布式深度学习框架,其采用数据流图(定义一个静态图,新版增加了动态图)的形式来进行数值计算。本文使用Tensorflow基于CNN完成MNIST数据集的分类任务。实现流程2.1 导入相关包import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_data2.2 获取数据# 获取数据mnist = input_data.read_data_sets原创 2020-07-08 10:35:45 · 924 阅读 · 0 评论 -
中文分词:最大匹配算法
中文分词:最大匹配算法(一)引言分词是自然语言处理中非常常见的操作,也是必不可少的文本数据预处理步骤。各国语言的表达方式和书写方式截然不同,因此分词的方式和难度也不同。英文分词是最简单的,因为每个单词已经用空格自动分词了,比如"I like Chinese" 这个句子已经被分成了三个单词。当然,英文分词也是有难点的,比如单词大小写所代表的含义不同以及各种符号的用法,这里暂不讨论。中文是汉字为基本书写单位,词语甚至句子之间并没有明显的区分标记,并且不同的词组合容易产生歧义。比如:“结婚的和尚未结婚的”,计原创 2020-07-07 16:45:44 · 2176 阅读 · 0 评论 -
Pytorch搭建深度模型
Pytorch搭建模型流程1. 引言2. Pytorch搭建深度框架流程2.1 导入相关包2.2 设置超参数2.3 导入数据集2.4 定义网络模型2.5 实例化网络并定义优化器2.6 定义训练网络train2.7 定义测试网络test2.8 开始训练并测试1. 引言Pytorch与Tensorflow是现今比较流行的两种深度学习计算框架。相较于Tensorflow,Pytorch具有更高的灵活性(动态),代码更简洁易懂。(当然,Tensorflow的新版本也已经引入了动态图)。Pytorch主要用于:原创 2020-07-07 16:34:22 · 320 阅读 · 0 评论