自然语言处理
ALuckyPig
To be a better man!
展开
-
1. NLP基础
1.1 什么是 NLP1.1.1 NLP 的概念分为两个部分:自然语言处理与自然语言生成1.1.2 NLP 的研究任务舆论分析可以帮助分析那些话题是目前的热点1.2 NLP 的发展历程...原创 2019-01-01 10:29:05 · 444 阅读 · 0 评论 -
8. 情感分析技术
实战电影评论情感分析(文本分类问题)1. 基础感念文本类型:句子、段落、文档情绪状态:正面、负面、中性应用:购物、旅行、电影2. 文本表达和文本分类深度学习之前,表示方法主要是 BOW 和主题模型,分类模型主要是 SVM 和 LR3.词嵌入算法...原创 2019-01-01 10:31:08 · 1585 阅读 · 0 评论 -
7. 文本向量化
基于神经网络的文本向量化方法:word2vec 词向量算法和 doc2vec 文本向量化算法本章要点:1.7.1 文本向量化概述原创 2019-01-01 14:08:36 · 310 阅读 · 0 评论 -
2. NLP 前置技术解析
很多的数据科学库、框架、模块以及工具箱可以有效地实现 NLP 大部分常见的算法与技术需要掌握 Numpy、正则表达式2.1 搭建 Python 开发环境2.1.1 Python 的科学计算发行版 — Anaconda2.2 正则表达式在 NLP 中的基本应用正则表达式是一种定义了搜索模式的特征序列,主要是用于字符串的模式匹配,或是字符的匹配。NLP 通常所需要处理的语料,...原创 2019-01-01 14:37:53 · 391 阅读 · 0 评论 -
3. 中文分词技术
理解自然语言的过程:中文分词技术、短语划分、概念抽取以及主题分析、自然语言理解3.1 中文分词简介汉语中,词以字为基本单位,但是一篇文章的语义表达却仍然是以词来划分的分词歧义、未登录词、分词粒度粗细等都是影响分词效果的重要因素中文分词方法:规则分词、统计分词、混合分词(规则加统计)规则分词:通过人工设立词库,按照一定方式进行匹配切分,实现简单高效,对新词很难处理机器学习统...原创 2019-01-01 15:04:49 · 364 阅读 · 1 评论 -
5. 关键字提取算法
5.1 关键词提取技术概述信息爆炸,提取有用的信息,利用关键词;关键词算法,可以分为有监督和无监督两类。有监督主要是通过分类的方式进行,通过构建一个较为丰富和完善的词表,以类似打标签的方式,达到关键字提取的效果。缺点是:人工维护成本很高无监督主要是:TF-IDF 算法、TextRank 算法和主题模型算法(LSA、LSI、LDA等)5.2 关键词提取算法 TF/IDF 算法基于统计的方法...原创 2019-01-07 17:24:30 · 860 阅读 · 0 评论 -
深度学习课程之文本预处理、词袋模型、word2vec、语言模型(1.9)
词向量和语言模型深度学习其实最成功的应用是在图像上,有了 CNN 可以很好地提取图像上的特征,这些特征经过几层的神经网络结构可以很好地组合成比较抽象的特征。NLP 常见任务自动摘要:媒体需要的头条通过 NLP 自动提取机器翻译主题识别文本分类(主题分类、情感分类、按照你的需求分类)问答系统聊天机器人:NLP 的终极任务NLP 处理方法传统:基于规则(去学习语言之间的语法规则...原创 2019-01-09 10:39:34 · 2957 阅读 · 0 评论