Datawhale | 自然语言处理
orient928
这个作者很懒,什么都没留下…
展开
-
Datawhale |自然语言处理(1)
写在前面:这是NLP班的第一次作业,只要就是安装软件,配置环境之类的,由于之前已经配置过环境,所以这里就把以前写的博客的部分内容拿出来,可能不是完全按照群里给的框架来写的,请见谅!文章目录1. Anaconda 概述2. Anaconda 优势3. Pycharm4. Python安装第三方库的方法1. Anaconda 概述Anaconda 和 Jupyter notebook已经成为...原创 2019-04-07 14:51:44 · 165 阅读 · 0 评论 -
Datawhale | 自然语言和处理(3)
写在前面:由于是初次接触NLP,对这方面没有什么自己的见解,所以都是按照助教给的框架来总结,目前也在学习stanford的cs224N,也打算之后再开一个分类专门学习cs224N,希望自己能够在NLP这条路上越走越远!文章目录一.基本文本处理技能1.分词1.1 概述1.2 正向最大匹配法(forward maximum matching method,FMM)1.3 逆向最大匹配法(back...原创 2019-04-11 21:17:58 · 422 阅读 · 0 评论 -
Datawhale | 自然语言处理(5)——朴素贝叶斯
写在前面:身体极度不适,所以就随便粘了点东西上来,助教可以不用看了,等明天身体恢复一点在重新写一遍,抱歉!文章目录一. 朴素贝叶斯的原理二. 朴素贝叶斯应用场景三. 朴素贝叶斯优缺点1.优点2.缺点四. 利用朴素贝叶斯模型结合 Tf-idf 算法进行文本分类一. 朴素贝叶斯的原理基于朴素贝叶斯公式,比较出后验概率的最大值来进行分类,后验概率的计算是由先验概率与类条件概率的乘积得出,先验概率...原创 2019-04-15 21:15:26 · 224 阅读 · 0 评论 -
Datawhale | 自然语言处理(2)
文章目录一. THUCNews中文数据集1.1 数据下载1.2 数据探索二. IMDB英文数据集2.1 数据下载2.2 数据探索三. 常用评估方式3.1 混淆矩阵一. THUCNews中文数据集THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。在原始新浪新闻分类体系的基础上,重新整合划...原创 2019-04-09 22:10:15 · 495 阅读 · 0 评论 -
Datawhale | 自然语言处理(4)——中文文本挖掘预处理
写在前面:这两天看了下cs224N 和 吴军博士的《数学之美》,算是对 NLP 有了一个初步的认识,这篇文章并不是完全按照助教给的框架来写的,其中也尝试了实际操作,但是过程中出现了很多意想不到的错误,由于还没有解决,所以这里就不粘代码实现的部分了,助教请见谅!文章目录一. 概念介绍1.词袋模型(Bag of Words)2.停用词(Stop Words)3.TF-IDF模型3.1 词频(TF)...原创 2019-04-13 21:30:42 · 836 阅读 · 0 评论 -
Datawhale | 自然语言处理(8)——神经网络
文章目录一. 神经网络基础概念1. 网络结构1.1 前馈网络1.2 反馈网络1.3 图网络2. 前馈神经网络二. 感知机(perceptron)1. 定义2. 学习策略3. 学习算法三. 激活函数1. 激活函数性质2.常见的激活函数2.1 Sigmoid 型激活函数2.11 Logistic 函数2.12 Tanh 函数2.2 修正线性单元 (ReLU)2.3 Maxout 单元四. 深度学习中的...原创 2019-04-21 23:09:45 · 946 阅读 · 0 评论 -
Datawhale | 自然语言处理(6)——SVM
写在前面:svm我之前的博客已经总结过了,这里就不在赘述了,直接附上链接,这篇博客只放我跑的代码的部分,请见谅。文章目录一.SVM算法二. 利用SVM结合 Tf-idf 算法进行文本分类1. 读取数据2.使用TF-IDF将文本数据编码3.SVM建模一.SVM算法https://blog.csdn.net/orient928/article/details/89220862二. 利用SV...原创 2019-04-18 10:57:43 · 192 阅读 · 0 评论 -
Datawhale | 自然语言处理(7)——主题模型
写在前面:本文只是简要的介绍了一下LDA模型的概念和一些整体上的认识,没有涉及到具体的公式推导,目前只是按照助教的建议大致梳理一下,后期肯定还要花大时间推导公式仔细理解该模型,感兴趣的可以参考后面的博客,总结的很详细,看完后受益匪浅。文章目录一. PlSA模型1. 概念2.概率图模型二. 共轭先验分布1. 基本概率分布2. 共轭分布三. LDA主题模型1.原理2.学习步骤3.应用场景4.优缺点...原创 2019-04-19 21:43:16 · 305 阅读 · 0 评论