![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
普通攻击往后拉
Intelligent decision-making for scheduling and planning problems
展开
-
python中文短文本的预处理及聚类分析(NLP)
python中文短文本的预处理及聚类分析(NLP)对于中文短文本而言,其有着单个文本词量少,文本多等特点,并且在不同的领域中中文短文本有着不同的特点。本文以已获取的微博语料出发,使用DBSCAN密度聚类,并对其进行简单可视化。1 原始文本的预处理1.1 去除文本噪音对于原始文本,总会有很多东西是我们不需要的,比如标点、网址来源、表情转换符([西瓜]、[大笑])等,如下图所示。因此我们首...原创 2018-12-21 15:28:15 · 22942 阅读 · 38 评论 -
scikitlearn中聚类结果的标签值与原样本数据的对应
1 问题来源在使用sklearn中的聚类算法过程中,得到的一般为聚类结果的标签值。例如,[1,1,0,1,0,1,0,1,0,1,2,-1,-1,2,3,3,1,-1,-1]这样的标签值,如何将聚类结果的_labels值与原样本对应并打印输出,是亟待解决的问题。2 源码实现labels_to_original函数的功能是,将forclusterlist中的样本集按照labels中的标签值重新...原创 2019-05-14 00:00:33 · 10733 阅读 · 2 评论 -
python TF-IDF进行文本特征提取的源码实现,及与sklearn的比较
TF-IDF特征提取的实现1 TF-IDF的计算公式TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TFIDF实际上是:TF * IDF,TF词频(Term Frequency),IDF逆向文件频率(Inverse Document Frequency)。TF-IDF的原始公式为:公...原创 2019-05-07 23:57:57 · 2747 阅读 · 0 评论 -
tensorflow + textCNN 实现短文本评论情感分类
1 textCNN原理textCNN最早在2014年由纽约大学的Yoon Kim提出(作者就他自己一个人),论文题目Convolutional Neural Networks for Sentence Classification,在文中作者用精炼的语句介绍了使用卷积神经网络进行文本分类任务的原理和网络结构,并用7个数据集证明了模型的泛化能力。本文在简单阐述论文中模型的基础上,将会详细介绍如何...原创 2019-08-05 18:41:12 · 1767 阅读 · 0 评论 -
tensorflow + LSTM 实现短文本评论情感分类
1 文本数据介绍及来源本文使用的数据集为网站爬取的短文本评论,其中由于数据量较少,不区分验证集与测试集,并按照4:1的比例将原始有标签数据分为训练集与测试集。原始数据文件压缩包网盘链接:https://pan.baidu.com/s/13vwd3lfKWfXlD1a8uB6ngg提取码:urj2注:解压后的text_data文件夹放置在与程序的同级目录下。原始数据以txt文本格式保存,标...原创 2019-08-09 08:09:58 · 956 阅读 · 1 评论 -
tensorflow + fasttext 实现文本分类及原理
1 fasttext原理简介2 数据介绍3 数据预处理4 fasttext实现文本分类5 fasttext的适宜场景原创 2019-08-12 10:35:48 · 1078 阅读 · 1 评论