![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP自然语言处理
文章平均质量分 81
AngelaOrange
这个作者很懒,什么都没留下…
展开
-
NLP自然语言处理学习笔记(一)Word Embedding词嵌入
NLP自然语言处理学习笔记(一)Word Embedding词嵌入原创 2018-12-08 15:22:32 · 1723 阅读 · 0 评论 -
DataWhale NLP 打卡(六)SVM支持向量机
1、SVM的原理间隔与支持向量给定训练样本集D = {(x1, y1), (x2, y2),…,(xm, ym)}, yi∈{-1, +1},分类学习中最基本的思路就是基于训练集D在样本空间里找到一个划分超平面,将不同类别的样本分开,但是可以将样本分开的划分超平面可能有很多。在这么多的超平面中,如何选择最合适的呢?什么标准又是最合适的呢?在样本空间中,划分超平面可通过如下线性方程来描述:...转载 2019-04-19 20:52:47 · 162 阅读 · 0 评论 -
初学者如何查阅自然语言处理(NLP)领域学术会议
本篇为转载原文地址:http://blog.sina.com.cn/s/blog_574a437f01019poo.html 转载地址:https://blog.csdn.net/sinat_29694963/article/details/80591123本文介绍自然语言处理(Natural Language Processing, NLP)领域的一些国内外著名会议和期刊。 自然语言处...转载 2019-04-15 16:09:03 · 303 阅读 · 0 评论 -
DataWhale NLP 打卡(八)神经网络基础
本篇为转载Datawhale小组其他小伙伴的博客原文链接:https://blog.csdn.net/tulingmenghuan/article/details/89424772原作者:拒绝甜食目录1.前馈神经网络、网络层数、输入层、隐藏层、输出层、隐藏单元、激活函数的概念1.1前馈神经网络1.2神经网络的网络结构神经元神经网络模型1.3激活函数1.3.1Si...转载 2019-04-21 21:58:21 · 632 阅读 · 0 评论 -
【NLP数据竞赛】“达观杯”文本智能处理挑战赛(五)LightGBM模型
一. 简介1.1. 什么是LightGBMLightGBM是个快速的、分布式的、高性能的基于决策树算法的梯度提升框架。可用于排序、分类、回归以及很多其他的机器学习任务中。 因为他是基于决策树算法的,它采用最优的leaf-wise策略分裂叶子节点,然而其它的提升算法分裂树一般采用的是depth-wise或者level-wise而不是leaf-wise。因此,在LightGBM算法中,当...转载 2019-04-13 21:59:50 · 605 阅读 · 3 评论 -
DataWhale NLP 打卡(四)文本表示
TF-IDF原理 TF-IDF 是一个统计方法,用来评估某个词语对于一个文件集或文档库中的其中一份文件的重要程度。 词频 TF计算了一个单词在文档中出现的次数,它认为一个单词的重要性和它在文档中出现的次数呈正比。逆向文档频率 IDF,是指一个单词在文档中的区分度。它认为一个单词出现在的文档数越少,就越能通过这个单词把该文档和其他文档区分开。IDF 越大就代表该单词的区分度越大。...转载 2019-04-13 21:49:36 · 174 阅读 · 0 评论 -
【NLP数据竞赛】“达观杯”文本智能处理挑战赛(二)word2vec词嵌入
word2vec原理用词向量来表示词并不是word2vec的首创,在很久之前就出现了。最早的词向量是很冗长的,它使用是词向量维度大小为整个词汇表的大小,对于每个具体的词汇表中的词,将对应的位置置为1。比如我们有下面的5个词组成的词汇表,词"Queen"的序号为2, 那么它的词向量就是(0,1,0,0,0)(0,1,0,0,0)。同样的道理,词"Woman"的词向量就是(0,0,0,1,0)(0...转载 2019-04-09 21:57:40 · 225 阅读 · 0 评论 -
DataWhale NLP 打卡(二)模型的评估指标:Precision、Recall、ROC、AUC、P-R曲线
分类模型评估指标 描述 Scikit-learn函数 Precision 精准度 from sklearn.metrics import precision_score Recall 召回率 from sklearn.metrics import recall_score F1 F1值 from sklearn.metrics i...转载 2019-04-09 21:48:36 · 718 阅读 · 0 评论 -
【NLP数据竞赛】“达观杯”文本智能处理挑战赛(六)模型调优
一、网格搜索网格搜索(Grid Search)用简答的话来说就是手动的给出一个模型中你想要改动的所用的参数,程序自动的帮你使用穷举法来将所用的参数都运行一遍。决策树中我们常常将最大树深作为需要调节的参数; K次验证:二、模型调优与参数融合选择均匀融合,调参结果为:模型 最优参数 F1评分LR C=10, max_iter=20 0.713SVM C...转载 2019-04-16 08:51:31 · 221 阅读 · 0 评论 -
DataWhale NLP 打卡(五)朴素贝叶斯
朴素贝叶斯(naive bayes)法是基于贝叶斯定理与特征条件独立假设的分类方法。优点:在数据较少的情况下仍然有效,可以处理多分类问题。缺点:对入输入数据的准备方式较为敏感。使用数据类型:标称型数据。下面从一个简单问题出发,介绍怎么使用朴素贝叶斯解决分类问题。一天,老师问了个问题,只根据头发和声音怎么判断一位同学的性别。为了解决这个问题,同学们马上简单的统计了7位同学的相关特征,数据...转载 2019-04-15 22:06:25 · 180 阅读 · 0 评论 -
【NLP数据竞赛】“达观杯”文本智能处理挑战赛(四)线性回归LR+支持向量机SVM
一. 理论学习1.逻辑回归(LR)LR在【Datawhale-初级算法梳理】小组中有学习过,笔记见此处2.支持向量机(SVM)a) 简介支持向量机(support vector machines, SVM)是一种二类分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机;支持向量机还包括核技巧,这使它成为实质上的非线性分类器。SVM的的学习策略...转载 2019-04-11 22:13:28 · 206 阅读 · 0 评论 -
DataWhale NLP 打卡(三)特征提取
1. 基本文本处理技能尽管现在很多文本处理采用基于字/字符的方式,词作为能够独立语用的基本语言单位,依然是目前是主流的NLP任务的基本处理单位。对于没有间隔符的汉语,分词就成了文本预处理的第一个任务。汉语分词,现在其实已经有大量的开源工具,比如最常用的jieba, Stanford NLP,THULAC以及最近开源的pkuseg。宗成庆老师的书里对于分词难度总结为三个方面: 分词规范,歧义切...转载 2019-04-11 22:07:13 · 151 阅读 · 0 评论 -
【NLP数据竞赛】“达观杯”文本智能处理挑战赛(二)TF-IDF学习笔记
一、TF-IDF的主要思想1、计算词频 词频(TF) = 某个词在文章中的出现次数文章有长短之分,为了便于不同文章的比较,做"词频"标准化。 词频(TF) =某个词在文章中的出现次数 / 文章总词数或者 词频(TF) =某个词在文章中的出现次数 / 拥有最高词频的词的次数2、某个词在文章中的出现次数这时,需要一个语料库(corpus),用来模拟语言的使用环...原创 2019-04-07 20:16:35 · 257 阅读 · 0 评论 -
【NLP数据竞赛】“达观杯”文本智能处理挑战赛(一)数据初识
一、竞赛介绍网址:http://www.dcjingsai.com/common/cmpt/“达观杯”文本智能处理挑战赛_竞赛信息.html任务:建立模型通过长文本数据正文(article),预测文本对应的类别(class) 数据:包含两个csv文件1、train_set.csv:此数据集用于训练模型,每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列: ...原创 2019-04-05 20:32:51 · 491 阅读 · 0 评论 -
DataWhale NLP 打卡(一)环境的安装和配置
本次的打卡任务是:Anaconda 安装 Conda 学习 Python编辑器安装与学习:jupyternotebook 或者pycharm Tensorflow 库安装与学习由于在很久很久之前就配置好了相关环境,所以不做过多说明了,直接贴截图,用于打卡。Anaconda:Jupyter notebook:Pycharm:T...原创 2019-04-05 19:12:19 · 270 阅读 · 0 评论 -
NLP课程笔记(北大严睿老师)—— 相似度(Similarity)
一、相似度汽车和汽油很相关但不相似similar related synonymy(0或1,bool)二、方法1、Dictionary2、Distribution原创 2019-03-12 16:21:17 · 1057 阅读 · 0 评论 -
NLP课程笔记(严睿老师)—— 语言模型(N-grams)
一、probabilistic Language Modeling目标:计算一个句子或句子中单词出现的概率怎么计算?The chain rule 计算联合概率可以直接用count来估计概率吗?不可以马尔可夫假设(Markov Assumption):滑动窗口,只与临近的几个词有关Unigrams: 每个单词独立,与其他词没有关系Bigram model: 认为只与相邻的前一...原创 2019-03-01 16:05:25 · 835 阅读 · 0 评论 -
NLP自然语言处理学习笔记(二)Word2Vec
NLP自然语言处理学习笔记(二)Word2Vec一、Word2Vec二、负采样本文是根据吴恩达教授的教学视频来整理的学习笔记,部分图片来源于视频的截图。原教学视频连接 https://mooc.study.163.com/learn/2001280005?tid=2001391038#/learn/content一、Word2VecWord2Vec是词嵌入的一种算法。分为Skip-grams...原创 2018-12-08 17:15:23 · 263 阅读 · 0 评论 -
DataWhale NLP 打卡(七)LDA主题模型
本篇为转载原作者:我想听相声原文链接:https://blog.csdn.net/weixin_42483560/article/details/89401423理解LDA,可以分为下述5个步骤:1)一个函数:gamma函数2)四个分布:二项分布、多项分布、beta分布、Dirichlet分布3)一个概念和一个理念:共轭先验和贝叶斯框架4)两个模型:pLSA、LDA5)一个采样:G...转载 2019-04-19 21:01:00 · 326 阅读 · 0 评论