文本挖掘
文章平均质量分 74
文本挖掘
shelleyHLX
这个作者很懒,什么都没留下…
展开
-
知识图谱文献综述
文章目录1、知识图谱的基本介绍2、知识图谱的构建(1) 知识图谱的分类(2) 知识库的构建知识库的构建方法(3)基于知识图谱的领域知识库的存储文献资料知识库是基于知识的系统数据库。并不是所有具有智能的程序都拥有知识库,只有基于知识的系统才拥有知识库。许多应用程序都利用知识,其中有的还达到了很高的水平,但是,这些应用程序可能并不是基于知识的系统,它们也不拥有知识库。一般的应用程序与基于知识的系统之...转载 2019-12-19 17:12:29 · 3629 阅读 · 0 评论 -
ABCNN: Attention-Based Convolutional Neural Network for Modeling Sentence Pairs
文章目录AbstractAbstractHow to model a pair of sentences is a criticalissue in many NLP tasks such as answer selection (AS), paraphrase identification (PI) andtextual entailment (TE). Most prior work ...原创 2019-10-29 16:36:41 · 820 阅读 · 0 评论 -
Singular Value Decomposition
from: http://www.ams.org/publicoutreach/feature-column/fcarc-svdIntroductionThe topic of this article, the singular value decomposition, is one that should be a part of the standard mathematics underg...转载 2018-02-24 14:41:03 · 967 阅读 · 0 评论 -
Principal component analysis --- PCA的数学原理
转自:http://blog.codinglabs.org/articles/pca-tutorial.htmlPCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理...转载 2018-02-24 15:00:50 · 191 阅读 · 0 评论 -
机器学习中的算法(2)-支持向量机(SVM)基础
版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系[email protected]。也可以加我的微博: @leftnoteasy 前言: 又有很长的一段时间没有更新博客了,距离上次更新已经有两个月的时间了。其中一个很大的原因是,不知道写什么好-_-,最近一...转载 2018-02-24 15:24:01 · 185 阅读 · 0 评论 -
Principles of training multi-layer neural network using backpropagation 使用后向传播算法训练多层神经网络的规则
转自:http://home.agh.edu.pl/~vlsi/AI/backp_t_en/backprop.htmlThe project describes teaching process of multi-layer neural network employing backpropagation algorithm. To illustrate this process the thre...原创 2018-03-03 14:26:12 · 557 阅读 · 0 评论 -
网址
Calculus on Computational Graphs: Backpropagation:http://colah.github.io/posts/2015-08-Backprop/Understanding LSTM Networkshttp://colah.github.io/posts/2015-08-Understanding-LSTMs/Understanding Convol...原创 2018-03-03 20:35:03 · 221 阅读 · 0 评论 -
深度学习中的Attention模型介绍及其进展
转自:https://blog.csdn.net/jteng/article/details/52864401近期对深度学习中的Attention模型进行了深入研究,该模型在图像识别、语音识别和自然语言处理三大深度学习的热门领域均有广泛的使用,是2014和2015年深度学习领域的重要进展。现对其原理、主要应用及研究进展进行详细介绍。1. 基本原理 Attention模型最初应用于图像...转载 2018-08-10 16:17:26 · 567 阅读 · 0 评论 -
Text Classification -- Convolutional Networks、sentence level Attentional RNN、Hierarchical attention
from:https://richliao.github.io/Text Classification, Part I - Convolutional NetworksText classification is a very classical problem. The goal is to classify documents into a fixed number of predef...原创 2018-08-07 11:04:22 · 1005 阅读 · 0 评论 -
计算机会议排名等级
附件是计算机领域的学术会议等级排名情况,分为A+, A, B, C, L 共5个档次。其中A+属于顶级会议,基本是这个领域全世界大牛们参与和关注最多的会议。国内的研究者能在其中发表论文的话,是很值得骄傲的成就。A类也是非常好的会议了,尤其是一些热门的研究方向,A类的会议投稿多录用率低,部分A类会议影响力逐步逼近A+类会议。B类的会议分两种,一种称为盛会级,参与的人多,发表的论文也多,论文录用难...转载 2018-11-06 09:36:49 · 73538 阅读 · 0 评论 -
Universal Language Model Fine-tuning for Text Classification
Universal Language Model Fine-tuning for Text Classification文章目录Universal Language Model Fine-tuning for Text ClassificationABSTRACT1 Introduction2 Related work3 Universal Language Model Fine-tuning3...原创 2019-03-06 11:18:13 · 477 阅读 · 0 评论 -
Different types of Text Similarity Approaches
In various tasks such as information retrieval, document clustering, word-sense disambiguation, machine translation and text summarization, it is essential to measure the similarity between words, sen...原创 2019-08-20 09:18:10 · 537 阅读 · 0 评论 -
潜在语义分析Latent Semantic Analysis (LSA)
转自:http://blog.csdn.net/roger__wong/article/details/41175967在Wiki上看到的LSA的详细介绍,感觉挺好的,遂翻译过来,有翻译不对之处还望指教。原文地址:http://en.wikipedia.org/wiki/Latent_semantic_analysis前言浅层语义分析(LSA)是一种自然语言处理中用到的方法,其通过“矢量语义空间”...转载 2018-02-24 14:31:04 · 7284 阅读 · 0 评论 -
机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用
版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系[email protected]。也可以加我的微博: @leftnoteasy前言: 上一次写了关于PCA与LDA的文章,PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用奇异值分解去实现的。在上...转载 2018-02-24 11:51:32 · 540 阅读 · 1 评论 -
python + sklearn ︱分类效果评估——acc、recall、F1、ROC、回归、距离
转自:http://blog.csdn.net/sinat_26917383/article/details/75199996?locationNum=3&fps=1http://www.cnblogs.com/robert-dlut/p/5276927.htmlhttp://d0evi1.com/sklearn/model_evaluation/谈谈评价指标中的宏平均和微平均谈谈评价指标...转载 2018-02-17 15:30:06 · 9561 阅读 · 0 评论 -
特征工程完全总结(Python源码)
目录1 特征工程是什么?2 数据预处理2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换3 特征选择3.1 Filter 3.1.1 方差选择法 3.1.2 相关系数法 3.1.3 卡方检验 3.1.4 互信息法 3.2 ...转载 2019-10-24 13:43:23 · 442 阅读 · 0 评论 -
结合Scikit-learn介绍几种常用的特征选择方法
特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,我们经常不管三七二十一,选择一种自己最熟悉或者最方便的特征...转载 2018-02-19 16:08:37 · 294 阅读 · 0 评论 -
使用sklearn做单机特征工程
转自:https://www.jianshu.com/p/114385e5a757目录1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾3 特征选择 3.1 Filter 3.1...原创 2018-02-19 20:15:08 · 115 阅读 · 0 评论 -
使用sklearn优雅地进行数据挖掘
转自:http://www.cnblogs.com/jasonfreak/p/5448462.html目录1 使用sklearn进行数据挖掘 1.1 数据挖掘的步骤 1.2 数据初貌 1.3 关键技术2 并行处理 2.1 整体并行处理 2.2 部分并行处理3 流水线处理4 自动化调参5 持久化6 回顾7 总结8 参考资料1 使用sklearn进行数据挖掘1.1 数据挖掘的步骤 数据挖掘...转载 2018-02-19 20:19:52 · 188 阅读 · 0 评论 -
使用sklearn进行集成学习——理论
转自:http://www.bubuko.com/infodetail-2071336.html系列《使用sklearn进行集成学习——理论》《使用sklearn进行集成学习——实践》目录1 前言2 集成学习是什么?3 偏差和方差 3.1 模型的偏差和方差是什么? 3.2 bagging的偏差和方差 3.3 boosting的偏差和方差 3.4 模型的独立性 3.5 小结4 Gradie...转载 2018-02-19 20:31:13 · 310 阅读 · 0 评论 -
使用sklearn进行集成学习——实践
转自:http://www.cnblogs.com/jasonfreak/p/5720137.html系列《使用sklearn进行集成学习——理论》《使用sklearn进行集成学习——实践》目录1 Random Forest和Gradient Tree Boosting参数详解2 如何调参? 2.1 调参的目标:偏差和方差的协调 2.2 参数对整体模型性能的影响 2.3 一个朴实的方案:贪心...转载 2018-02-19 20:33:28 · 245 阅读 · 0 评论 -
我理解的信息论——自信息、熵、互信息
转自:http://blog.csdn.net/qtlyx/article/details/50819094信息论 信息是关于事物的运动状态和规律的认识,它可以脱离具体的事物而被摄取、传输、存贮、处理和变换。 信息论,就是用数理统计方法研究信息的基本性质以及度量方法,研究最佳解决信息的摄取、传输、存贮、处理和变换的一般规律的科学。它的成果将为人们广泛而有效地利用信息提供基本的技术方法和必要的...原创 2018-02-19 21:21:44 · 9268 阅读 · 1 评论 -
jieba完整文档
转自:http://blog.csdn.net/qq_27231343/article/details/51898940jieba“结巴”中文分词:做最好的 Python 中文分词组件"Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segme...转载 2018-03-01 10:12:22 · 848 阅读 · 0 评论 -
4.Hard-Margin Support Vector Machines
原创 2018-03-01 17:48:16 · 213 阅读 · 0 评论 -
李政軒Cheng-Hsuan Li的关于机器学习一些算法的中文视频教程
转自: http://blog.csdn.net/songzitea/article/details/24854507本节是李政軒Cheng-Hsuan Li的关于机器学习一些算法的中文视频教程。讲得很好不错,这里非常感谢他的分享:http://www.powercam.cc/chli。也贴到这里,和大家共同学习。Clustering Fuzzy C-Means 基本概念(第1部分) Fuzz...转载 2018-03-01 21:12:10 · 919 阅读 · 1 评论 -
IndexError: index 6 is out of bounds for axis 1 with size 6
错误:Using TensorFlow backend.Traceback (most recent call last): File "E:/Python3Doc/APIdocs/kerasMy/to-cat.py", line 7, in <module> y_train_use = np_utils.to_categorical(y_train, num_classes=...原创 2018-03-02 21:23:08 · 50310 阅读 · 2 评论 -
word2vec 原理
转自:http://www.cnblogs.com/iloveai/p/word2vec.htmlSVD分解:低维词向量的间接学习既然基于co-occurrence矩阵得到的离散词向量存在着高维和稀疏性的问题,一个自然而然的解决思路是对原始词向量进行降维,从而得到一个稠密的连续词向量。第一个出场的对原始矩阵进行降维的方法是奇异值分解(SVD)。SVD的基本思想是,通过将原co-occurrence...转载 2018-02-24 11:36:24 · 3403 阅读 · 0 评论 -
Word2Vec Tutorial - The Skip-Gram Model
翻译自:http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/1 模型skip-gram神经网络模型事实上很简单,仅训练一个有一层隐含层的简单网络来完成任务。但我们不使用这个网络,而是要隐含层的权重,这个就是我们要的词向量。可以在自动编码器看到这种做法,在隐含层压缩输入向量,然后在输出层解压缩获得原始向量,训...原创 2018-02-26 11:06:08 · 344 阅读 · 0 评论