可用于FAQ问答系统的语料集
数据集包含了,问题和相应的答案,可用于组件FAQ语料库,语料的数量在几十万条,比较干净,没有进行分词。
情感分析实例教程,python实现
主要介绍了情感分析,设计了传统的机器学习的方法和深度学习的方法,用python实现,适合大家分析不同算法的优劣
文本分类相关程序和数据,包括TextCNN RNN CRF等
其中包括程序项目三个, Text CNN,RNN+CRT,CNN+LSTM的文本分类。包括数据训练集和测试集。文本分类是NLP的基础任务,掌握它是进阶的基础 enjoy
深度学习命名实体识别数据
资源是关于利用BERT模型来训练命名实体识别的数据,其中包括训练,测试,预测用的数据,结合唐老师的历程和github 代码实现
机器学习sklearn 和tensorflow 的资料总结
机器学习大佬总结的资料,其中包括sklearn 和tensorflow 框架的介绍,和常见算法的介绍,欢迎下载。
BERT中文情感分类开源项目
项目主要是利用BERT实现中文的情感分类
主要实现包括:
bert 模型的实现
利用起进行情感分类
需要版本 python3 和tensorflow 大于1.10
Mnist 数据代码范例
建立了基本的图像处理流程范例,以mnist 为基本的code 去实验各种的函数代码:
主要包括:
基本的模型保存和恢复
训练过程中监控各种指标
唐诗生成训练数据适用于LSTM 模型
文本生成是NLP重要的应用场景,利用ML自动的根据输入的文本生成唐诗。先用数据进行学习,在进行预测,就完成了,文本生成的过程。本数据主要用于训练LSTM 网络生成唐诗,包括代码的数据。有需要的请自行下载使用。
CNN训练数据_文本分类数据
本节资料是练习CNN 文本分类的数据,数据有是10类别,模型采用两层的神经网络。数据包含了测试集,训练集和验证集,并且代码讲解很详细,是联系CNN卷积网络实现的好数据。
RNN训练数据_文本分类数据集
本节资料是练习RNN文本分类的数据,数据有是10类别,模型采用两层的LSTM网络。数据包含了测试集,训练集和验证集,并且代码讲解很详细,是联系RNN网络LSTM实现的好数据。
深度学习资料库和DeepLearning使用工具
其中有深度学习网络训练所用数据和参考资料的说明文档,有助于快速的搭建个人的学习框架,理解其中的道理。欢迎下载!
Kmean电影简介聚类数据
文本分类一般包括了文本的表达、 分类器的选择与训练、 分类结果的评价与反馈等过程,其中文本的表达又可细分为文本预处理、索引和统计、特征抽取等步骤。文本分类系统的总体功能模块为:
(1) 预处理:将原始语料格式化为同一格式,便于后续的统一处理;
(2) 索引:将文档分解为基本处理单元,同时降低后续处理的开销;
(3) 统计:词频统计,项(单词、概念)与分类的相关概率;
(4) 特征抽取:从文档中抽取出反映文档主题的特征;
(5)分类器:分类器的训练;
(6) 评价:分类器的测试结果分析。
kaggle竞赛使用的数据,里面包括训练和测试数据集
Kaggle是由联合创始人、首席执行官安东尼·高德布卢姆(Anthony Goldbloom)2010年在墨尔本创立的,主要为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。该平台由于举办多种领域的数据分析、机器学习竞赛,具有很多有价值的数据集可供下载。Kaggle 的数据集很难下载,这里提供了一个文本分类的数据集,供大家使用。
用于自然语言处理中的NLTK模块快速安装,第二部分
使用Anaconda环境下,可以直接使用activate + 环境名的方式切到要安装nltk的环境下,然后使用conda install nltk进行安装,如果只是普通的python方式,则是可以使用pip install命令。
当然,NLTK最麻烦的是它的使用需要一些较大的数据包,如果对自己的网速有信心,可以直接在切到安装环境后,使用python命令进入到python环境中,输入:
import nltk
nltk.download()
找到路径 改名称
用于自然语言处理中的NLTK模块快速安装
使用Anaconda环境下,可以直接使用activate + 环境名的方式切到要安装nltk的环境下,然后使用conda install nltk进行安装,如果只是普通的python方式,则是可以使用pip install命令。
当然,NLTK最麻烦的是它的使用需要一些较大的数据包,如果对自己的网速有信心,可以直接在切到安装环境后,使用python命令进入到python环境中,输入:
import nltk
nltk.download()
找到路径 改名称