NLP
甲壳剑齿鸟
蓝翔毕业数据挖掘汪
展开
-
NLP基础 Task3 特征选择
0.任务描述TF-IDF原理。文本矩阵化,使用词袋模型,以TF-IDF特征值为权重。(可以使用Python中TfidfTransformer库)互信息的原理。使用第二步生成的特征矩阵,利用互信息进行特征筛选。1.TF-IDF原理TF-IDF是Term Frequency - Inverse Document Frequency的缩写,即“词频-逆文本频率”。它由两部分组成,T...原创 2019-08-12 15:10:53 · 284 阅读 · 0 评论 -
NLP基础 Task2 特征提取
基本文本处理技能1.1 分词的概念(分词的正向最大、逆向最大、双向最大匹配法);1.2 词、字符频率统计;(可以使用Python中的collections.Counter模块,也可以自己寻找其他好用的库)概念2.1 语言模型中unigram、bigram、trigram的概念;2.2 unigram、bigram频率统计;(可以使用Python中的collections.Coun...原创 2019-08-12 14:30:53 · 106 阅读 · 0 评论 -
NLP论文研读-Denoising Distantly Supervised Open-Domain Question Answering
研究动机,研究方法,实验结果,创新点,个人点评原创 2019-08-14 20:14:07 · 222 阅读 · 0 评论 -
NLP论文研读 Task1 ELMO
研究动机,研究方法,实验结果,创新点,个人点评ELMO 是 Embeddings from Language Models 的缩写,即语言模型的词向量表示,也是利用了深度上下文单词表征,该模型的优点:(1)能够处理单词用法中的复杂特性(比如句法和语义)(2)这些用法在不同的语言上下文中如何变化(比如为词的多义性建模)。...原创 2019-08-14 15:50:27 · 186 阅读 · 0 评论 -
NLP论文研读 Task1 ELMO模型调试笔记
模型地址,模型运行环境,数据集选择与下载,模型运行步骤,问题与解决方法汇总,个人点评原创 2019-08-14 15:49:16 · 150 阅读 · 0 评论 -
NLP 理论实践 Task1数据集探索&NLP基本概念
1.数据集下载和探索数据集:中、英文数据集各一份1.1 中文数据集:THUCNewsTHUCNews数据子集:https://pan.baidu.com/s/1hugrfRu 密码:qfud参考博客中的数据集部分和预处理部分:CNN字符级中文文本分类-基于TensorFlow实现 - 一蓑烟雨 - CSDN博客参考代码1.2 英文数据集:IMDB数据集IMDB英文数据集:IMD...原创 2019-08-07 19:11:02 · 295 阅读 · 0 评论 -
NLP 理论实践 Task5 文本表示
NLP 理论实践 Task5 文本表示词袋模型:离散、高维、稀疏。分布式表示:连续、低维、稠密。word2vec词向量原理并实践,用来表示文本。word2vec http://www.hankcs.com/nlp/word2vec.htmlword2vec 中的数学原理详解(一)目录和前言 - peghoty - CSDN博客 https://blog.csdn.net/itplus/a...原创 2019-07-03 21:00:31 · 130 阅读 · 0 评论 -
NLP 理论实践 Task4
朴素贝叶斯朴素贝叶斯的原理利用朴素贝叶斯模型进行文本分类朴素贝叶SVM斯1SVM模型SVM的原理利用SVM模型进行文本分类LDA主题模型pLSA、共轭先验分布LDA使用LDA生成主题特征,在之前特征的基础上加入主题特征进行文本分类LDA数学八卦 lda2 合并特征...原创 2019-07-03 20:40:50 · 135 阅读 · 0 评论 -
NLP 理论实践 Task3 特征选择
Task3TF-IDF原理。文本矩阵化,使用词袋模型,以TF-IDF特征值为权重。(可以使用Python中TfidfTransformer库)互信息的原理。使用第二步生成的特征矩阵,利用互信息进行特征筛选。TF-IDF 原理TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种...原创 2019-06-27 20:36:16 · 208 阅读 · 0 评论 -
NLP 理论实践 Task2
一、.基本文本处理技能正向最大匹配法分词目标:在词典中进行扫描,尽可能地选择与词典中最长单词匹配的词作为目标分词,然后进行下一次匹配。算法流程:从前往后取词,每次减一个字,直至词典命中或剩下1个单字。假设词典中最长的单词为 5 个,那么最大匹配的起始子串字数也为 5 个(1)从左往右读入子串,扫描字典,测试读入的子串是否在字典中(2)如果存在,则从输入中删除掉该子串,重新按照规则取...原创 2019-06-24 20:34:39 · 166 阅读 · 0 评论 -
NLP基础 Task4 朴素贝叶斯 SVM LDA
1,朴素贝叶斯朴素贝叶斯的原理利用朴素贝叶斯模型进行文本分类2,SVM模型SVM的原理利用SVM模型进行文本分类3,LDA主题模型pLSA、共轭先验分布LDA使用LDA生成主题特征,在之前特征的基础上加入主题特征进行文本分类LDA数学八卦 lda2 合并特征...原创 2019-08-13 11:43:38 · 143 阅读 · 0 评论