![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
Growing_Snake
学无止境,时时总结
展开
-
自然语言处理1——Anaconda与Tensorflow
自然语言处理——任务1Anaconda导航界面: Anaconda的包管理器,conda允许你在conda环境中安装任何语言包,如果我们只是关注python包安装,conda和pip也是为不同用户和不同目标定制的。如果你想在一个已有系统快速管理python包,那你应该选择pip,因为conda应该在conda环境中使用,而pip鼓励在任何环境中使用 。而如果,你想要让许多依赖库一起很好地工作(...原创 2019-04-05 10:03:18 · 408 阅读 · 0 评论 -
自然语言处理8——神经网络基础
前馈神经网络、网络层数、输入层、隐藏层、输出层、隐藏单元、激活函数的概念。感知机相关;利用tensorflow等工具定义简单的几层网络(激活函数sigmoid),递归使用链式法则来实现反向传播。激活函数的种类以及各自的提出背景、优缺点。(和线性模型对比,线性模型的局限性,去线性化)深度学习中的正则化(参数范数惩罚:L1正则化、L2正则化;数据集增强;噪声添加;early stop;Drop...原创 2019-04-21 19:41:32 · 794 阅读 · 0 评论 -
NER文本数据集标注爬坑
文章目录一. 数据标注方式1. BIO标注2. BIOES二. NER数据标注工具推荐1. Brat2. YEDDA更多标注工具注意写在前面:本篇博客记录自己研究在老板的乱七八糟的指挥下踏进了NLP的坑,并且在一段时间调研后发现老板定的方向没有公开数据集(呵呵呵呵~),然后自己苦逼的开始边学技术边搞数据,真是苦不堪言…一. 数据标注方式目前,常用的序列标注方式有BIO和BIOES,两者形式上...原创 2019-06-19 21:02:47 · 11977 阅读 · 29 评论 -
知识图谱学习资料
1 知识图谱是什么知识图谱是一种结构化数据的处理方法,它涉及知识的提取、表示、存储、检索等一系列技术。从渊源上讲,它是知识表示与推理、数据库、信息检索、自然语言处理等多种技术发展的融合。2 推荐资料为什么需要知识图谱?什么是知识图谱?——KG的前世今生https://zhuanlan.zhihu.com/p/31726910什么是知识图谱?https://zhuanlan.zhihu....原创 2019-04-28 17:29:23 · 1673 阅读 · 0 评论 -
自然语言处理学习资料
1 NLP是什么自然语言处理(NLP,Natural Language Processing)是研究计算机处理人类语言的一门技术,目的是弥补人类交流(自然语言)和计算机理解(机器语言)之间的差距。NLP包含句法语义分析、信息抽取、文本挖掘、机器翻译、信息检索、问答系统和对话系统等领域。2 课程推荐CS224n 斯坦福深度自然语言处理课17版中文字幕:https://www.bilibil...原创 2019-04-28 17:27:09 · 400 阅读 · 1 评论 -
自然语言处理7——LDA
文章目录1. PLSA、共轭先验分布;LDA主题模型原理1.1 PLSA1.2 共轭先验分布1.2.1 共轭先验分布的参数确定1.2.2 常见的共轭先验分布1.3 LDA主题模型原理2. LDA应用场景3. LDA优缺点4. LDA 在sklearn中的参数学习5. 使用LDA生成主题特征,在之前特征的基础上加入主题特征进行文本分类参考1. PLSA、共轭先验分布;LDA主题模型原理1.1 P...原创 2019-04-18 13:47:49 · 2518 阅读 · 4 评论 -
自然语言处理11——RNN与LSTM
文章目录1. 循环神经网络RNN(Recurrent Neural Network)1.1 循环神经网络的提出背景1.2 循环神经网络的结构1.3. 双向RNN1.4 RNN存在的问题2. LSTM与GRU2.1 LSTM2.2 GRU3. Text-RNN3.1 Text-RNN的原理3.2 利用Text-RNN模型来进行文本分类1. 循环神经网络RNN(Recurrent Neural ...原创 2019-04-27 09:51:54 · 2772 阅读 · 0 评论 -
自然语言处理9——word2vec
文章目录1. 文本表示:从one-hot到word2vec1.1 one-hot1.2 word2vec1.2.1 CBOW1.2.2 Skip-Gram2. word2vec实践参考1. 文本表示:从one-hot到word2vec文本表示的意思是把字词处理成向量或矩阵,以便计算机能进行处理。文本表示是自然语言处理的开始环节。文本表示按照细粒度划分,一般可分为字级别、词语级别和句子级别的文...原创 2019-04-22 10:17:54 · 1020 阅读 · 0 评论 -
自然语言处理10——卷积神经网络基础
文章目录1. 卷积运算1.1 卷积运算的定义1.2 卷积运算的动机1.3 一维卷积运算1.4 二维卷积运算2. 反卷积3. 池化运算3.1 池化运算的定义3.2 池化运算的种类3.3 池化运算的动机4. Text-CNN的原理5. 利用Text-CNN模型来进行文本分类参考1. 卷积运算1.1 卷积运算的定义卷积运算通常用星号表示:s(t)=(x∗w)(t)s(t)=(x∗w)(t)s(t)...原创 2019-04-25 20:11:24 · 731 阅读 · 0 评论 -
自然语言处理6——SVM及其sklearn实现
文章目录1. SVM(Support Vector Machines)原理2. SVM应用场景3. SVM优缺点4. SVM sklearn 参数学习5. 利用SVM模型结合 Tf-idf 算法进行文本分类参考1. SVM(Support Vector Machines)原理SVM(support vector machine)简单的说是一个分类器,并且是二分类器。对一个分类问题,如果数据是...原创 2019-04-16 14:45:15 · 1430 阅读 · 0 评论 -
自然语言处理4——TF-IDF及特征提取
TF-IDF原理。文本矩阵化,使用词袋模型,以TF-IDF特征值为权重。(可以使用Python中TfidfTransformer库)互信息的原理。使用第二步生成的特征矩阵,利用互信息进行特征筛选。文章目录1. TF-IDF原理2. 文本矩阵化1. TF-IDF原理TF-IDF是Term Frequency - Inverse Document Frequency的缩写,即“词频—...原创 2019-04-13 11:26:55 · 3052 阅读 · 0 评论 -
自然语言处理5——朴素贝叶斯及其sklearn实现
朴素贝叶斯的原理利用朴素贝叶斯模型进行文本分类SVM的原理利用SVM模型进行文本分类pLSA、共轭先验分布;LDA主题模型原理使用LDA生成主题特征,在之前特征的基础上加入主题特征进行文本分类1. 朴素贝叶斯的原理参考资料朴素贝叶斯1:sklearn:朴素贝叶斯(naïve beyes) - 专注计算机体系结构 - CSDN博客 (https://blog.csdn.net/u...原创 2019-04-15 21:15:50 · 791 阅读 · 1 评论 -
自然语言处理2——THUCNews中文数据集与IMDB英文数据集
1. THUCNews中文数据集THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。1.1 数据下载完整版链接http://thuctc.t...原创 2019-04-08 16:46:16 · 3326 阅读 · 0 评论 -
自然语言处理3——文本数据处理
基本文本处理技能1.1 分词的概念(分词的正向最大、逆向最大、双向最大匹配法);1.2 词、字符频率统计;(可以使用Python中的collections.Counter模块,也可以自己寻找其他好用的库)2.1 语言模型中unigram、bigram、trigram的概念;2.2 unigram、bigram频率统计;(可以使用Python中的collections.Counter模...原创 2019-04-11 16:32:15 · 1454 阅读 · 0 评论 -
吴恩达Deeplearning第五课第一周记录
仅作为一个算法结构的记录,留作参考RNNRNN cellRNN forwardRNN backward cellLSTM cellLSTM原创 2019-04-02 12:46:17 · 409 阅读 · 0 评论 -
GraphViz安装配置
首先确保以下三个库已经安装好pip install pydot;pip install pydot-ng;pip install graphviz然后,GraphViz官网下载安装包或者压缩包https://graphviz.gitlab.io/_pages/Download/Download_windows.html,安装后,找到bin位置,将地址添加到Path环境变量中即可。可...原创 2019-04-02 12:44:59 · 377 阅读 · 0 评论 -
标注工具Brat安装(本地)
由于研究方向需要对文本进行标注,对象为大量期刊文献,手动标注肯定不太现实,于是找到了Brat标注工具,虽然这玩意儿好像挺久没更新了,只支持Python2,但是只用来标注还是没问题吧。事先声明:Brat有服务器运行和本地运行两种方式,官方推荐服务器运行,但我折腾了半天,不知道什么情况,该配置的都配置了,包括apache和CGI都配置完,但是结果是下面这个样子: ...原创 2019-03-27 21:18:41 · 6242 阅读 · 19 评论 -
携程2019.9.4机器学习算法岗——自然语言处理方向线上笔试
文章目录1. 选择题2. 编程题2.1 列车时刻2.22.3 字符串匹配这次笔试分为选择和编程两部分,选择题20道40分,编程题三道60分。1. 选择题不记得具体题目了,大致回忆一下考到的知识点:2. 编程题2.1 列车时刻题目:有a, b, c, d四个目的地,输入规定好的列车时刻表,输入顺序为出发顺序,相同目的地的列车归为一组,要求尽可能多的分组,输出对应的各组中的车数,输出顺序...原创 2019-09-05 21:14:24 · 3438 阅读 · 0 评论