NLP
lien0906
这个作者很懒,什么都没留下…
展开
-
通俗理解word2vec
独热编码 独热编码即 One-Hot 编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。举个例子,假设我们有四个样本(行),每个样本有三个特征(列),如图: 我们的feature_1有两种可能的取值,比如是男/女,这里男用1表示,女用2表示。feature_2 和feature_3各有4种取值...转载 2020-01-14 10:29:29 · 278 阅读 · 1 评论 -
文本相似度计算-度量方法
2. 文本相似度计算-距离的度量 完整机器学习实现代码GitHub 欢迎转载,转载请注明出处https://www.cnblogs.com/huangyc/p/9786731.html 欢迎沟通交流: 339408769@qq.com 0. 目录 1. 前言 2. 相似度计算方式 2.1 余弦相似度 2.2 欧式距离 2.3 曼哈顿距离 2.4 闵可夫斯基距离 2.5...转载 2019-10-29 11:55:02 · 3495 阅读 · 0 评论 -
文本相似度计算-文本向量化
0. 目录 1.前言 2. 文本向量化 2.1 词集模型和词代模型 2.2 n-gram 2.3 TF-IDF 2.4 word2vec 2.5 主题词模型 3. 总结 1. 文本相似度计算-文本向量化 2. 文本相似度计算-距离的度量 3. 文本相似度计算-DSSM算法 4. 文本相似度计算-CNN-DSSM算法 回到顶部 1.前言 在自然语言处理过...转载 2019-10-29 11:48:15 · 1432 阅读 · 0 评论 -
分词算法综述
之前总是在看前沿文章,真正落实到工业级任务还是需要实打实的硬核基础,我司选用了HANLP作为分词组件,在使用的过程中才感受到自己基础的薄弱,决定最近好好把分词的底层算法梳理一下。 1. 简介 NLP的底层任务由易到难大致可以分为词法分析、句法分析和语义分析。分词是词法分析(还包括词性标注和命名实体识别)中最基本的任务,可以说既简单又复杂。说简单是因为分词的算法研究已经很成熟了,大部分的准确率都...转载 2019-10-29 11:35:20 · 641 阅读 · 0 评论 -
TF-IDF介绍及应用
TF-IDF 基本概念 TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF指词频,IDF指逆向文件频率。主要用于评估某个字词对于一篇文章或一个语料库里的一篇文章的重要性。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引...转载 2019-10-29 11:22:55 · 1260 阅读 · 0 评论