NLP
噶噶~
这个作者很懒,什么都没留下…
展开
-
数据集探索
1. tensorFlow的基本操作 (1) 优势 1)高度的灵活性、支持python语言开发、可视化效果好、功能更加强大、运行效率高、强大的社区。 2)适用于多个CPU/GPU组成的分布式系统中。 (2)计算图模型 Tensorflow是一种计算图模型,即用图的形式来表示运算过程的一种模型 ...原创 2019-06-21 21:42:56 · 397 阅读 · 0 评论 -
特征提取
1. 分词的概念(分词的正向最大、逆向最大、双向最大匹配法) 最大匹配法:最大匹配是指以词典为依据,取词典中最长单词为第一个次取字数量的扫描串,在词典中进行扫描(为提升扫 描效率,还可以跟据字数多少设计多个字典,然后根据字数分别从不同字典中进行扫描。下面以“我们在野生动物园玩”详细说明 一下这几种匹配方法: (1)正向最大匹配法...原创 2019-06-25 14:23:53 · 223 阅读 · 0 评论 -
文本表示:从one-hot到word2vec
任务:词袋模型:离散、高维、稀疏; 分布式表示:连续、低维、稠密。word2vec词向量原理并实践,用来表示文本;1. 词袋模型: 词集模型: 单词构成的集合,集合中每个元素都只有一个; 词袋模型:在词集的基础上,如果一个单词在文档中出现不止一次,统计其出现的次数; 词袋在词集的基础上增加了频率的维度,词集关注的是单词是否存在,词袋增加关注了单词出现的频率;...原创 2019-07-03 18:56:25 · 489 阅读 · 0 评论 -
TF-IDF
1.TF-IDF的原理 (1)为什么要进行TF-IDF处理 如果没有经过TF-IDF处理时,对下面的4个短文做了词频统计: corpus=["I come to China to travel", "This is a car polupar in China", "I lov...原创 2019-06-30 15:22:03 · 698 阅读 · 0 评论 -
朴素贝叶斯、SVM模型和LDA主题模型
1.朴素贝叶斯 (1)朴素贝叶斯的原理 朴素:特征独立 贝叶斯:基于贝叶斯定理 根据贝叶斯定理,对一个分类问题,给定样本特征x,样本属于类别y的概率是 在这里,x是一个特征向量,将设x维度为M。因为朴素的假设,即特征条件独立,根据全概率公式展开,公式(1)可以...原创 2019-06-30 20:53:48 · 2176 阅读 · 0 评论