2019年03月_数据之心

原创基于深度学习的情感分析

深度学习的情感分析基于机器学习与深度学习方法的情感分析算法实现与对比，包括决策树，贝叶斯，KNN, SVM ,MLP, CNN, LSTM实现。预处理：1.语料电影评论，训练集合20000（正向10000，负向10000）电影评论，测试集合20000（正向3000，负向3000）2、语料处理使用jieba进行分词3、输入向量化使用预先训练的wordvector.bin文件进行向量化对于...

2019-03-31 18:13:05 10556 1

原创中文电子病例命名实体识别

中文电子病例命名实体识别CCKS2017中文电子病例命名实体识别项目,主要实现使用了基于字向量的四层双向LSTM与CRF模型的网络.该项目提供了原始训练数据样本(一般醒目,出院情况,病史情况,病史特点,诊疗经过)与转换版本,训练脚本,预训练模型,可用于序列标注研究.电子病历结构化是让计算机理解病历、应用病历的基础。基于对病历的结构化，可以计算出症状、疾病、药品、检查检验等多个知识点之间的关...

2019-03-31 17:50:30 4660 9

原创 siamese相似问句匹配

——————————————————————————————————个人实现的基于Siamese bilstm模型的相似句子判定模型,提供训练数据集和测试数据集.句子相似度计算是自然语言处理中的一个重要技术手段,主要有两种方法:1, 基于传统的无监督方式,传统的用于计算句子相似度的方式有很多种。2, 基于标注数据的句子相...

2019-03-31 10:53:09 871

原创中文文本蕴含/推理

什么是文本蕴含识别文本间的推理关系，又称为文本蕴含关系 (TextualEntailment)，作为一种基本的文本间语义联系，广泛存在于自然语言文本中。简单的来说文本蕴含关系描述的是两个文本之间的推理关系，其中一个文本作为前提（premise），另一个文本作为假设（hypothesis），如果根据前提P能够推理得出假设H，那么就说P蕴含H，记做。这跟一阶逻辑中的蕴含关系是类似的。数据集：略...

2019-03-31 09:50:28 2411 2

原创特定事件追踪

特定事件追踪基于给定事件关键词，采集事件资讯，对事件进行挖掘和分析。架构：------------------------------------------------------------------------------1.基于话题关键词的话题历时语料库采集基于scrapy爬虫框架：一.Scrapy 简介：Scrapy是用纯Python实现一个为了爬取网站...

2019-03-31 08:02:06 1380 1

原创文本话题聚类（Kmeans/LDA）

K-means1 聚类是一种无监督的学习方法。聚类区别于分类，即事先不知道要寻找的内容，没有预先设定好的目标变量。2 聚类将数据点归到多个簇中，其中相似的数据点归为同一簇，而不相似的点归为不同的簇。相似度的计算方法有很多，具体的应用选择合适的相似度计算方法。3 K-means聚类算法，是一种广泛使用的聚类算法，其中k是需要指定的参数，即需要创建的簇的数目，K-means算法中的k个簇的...

2019-03-30 21:23:51 15292 1

原创基于句法依存的情感分析+SO-PMI情感词扩展

依存句法分析依存语法 (Dependency Parsing, DP) 通过分析语言单位内成分之间的依存关系揭示其句法结构。直观来讲，依存句法分析识别句子中的“主谓宾”、“定状补”这些语法成分，并分析各成分之间的关系。语义依存分析语义依存分析 (Semantic Dependency Parsing, SDP)，分析句子各个语言单位之间的语义关联，并将语义关联以依存结构呈现。...

2019-03-28 16:08:48 8177 1

原创 SQL语句练习

https://blog.csdn.net/zilinzhiyou/article/details/12163803https://blog.csdn.net/weixin_41809206/article/details/91045186

2019-03-28 22:14:16 145

原创 SVM学习笔记

SVM支持向量机，因其英文名为support vector machine，故一般简称SVM，通俗来讲，它是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，其学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。1、把线性分类器套在逻辑回归模型就是SVM；2、找到间隔最大化，支持向量概念；3、从线性可分到线性不可分、从原始问题到对偶问题的求解；4...

2019-03-24 16:25:29 244

原创 Boosting（Adboost、GBDT、Xgboost）笔记

集成学习通过构建并结合多个学习器来完成学习任务，有时也被称为多分类器系统、基于委员会的学习等。集成学习通过将多个学习器进行结合，常可获得比单一学习器显著优越的泛化性能。目前的集成学习方法大致可以分为两大类，即个体学习器间存在强依赖关系、必须串行生成的序列化方法，以及个体学习器间不存在强依赖关系、可同时生成的并行化方法；前者的代表是Boosting，后者的代表是Bagging和随机森林。...

2019-03-22 10:35:47 417

原创 Glove词向量模型笔记

GloVe模型采用了平方损失，并通过词向量拟合预先基于整个数据集计算得到的全局统计信息。任意词的中心词向量和背景词向量在GloVe模型中是等价的。原因在于Glove模型提出了词频共现矩阵的概念。但由于初始化值的不同，同一个词最终学习到的两组词向量可能不同。当学习得到所有词向量以后，GloVe模型使用中心词向量与背景词向量之和作为该词的最终词向量。看链接一的图就行。通俗易懂：http...

2019-03-20 09:52:36 733

原创 FastText与Word2vec笔记

为什么试图用fasttext代替text_cnn：一方面为了满足大数据训练，追求速度；另一方面认为对于文本，文本特征相比较图像而言特征矩阵较为稀疏，这样没必要通过多隐层多次学习特征，仅仅需要单隐层学习一次就好，加之Word2vec跟fasttext有层次哈夫曼树+softmax加持，速度惊人且效果非常好。分层softmax（Hierarchical sof...

2019-03-20 09:06:46 1392

数据之心-小赵