自然语言处理--DL & NLP
梦dancing
计算机Phd,发表实验干货和论文解读,欢迎交流。
展开
-
机器学习数据预处理1:独热编码(One-Hot)及其代码
1. 为什么使用 one-hot 编码?问题:在机器学习算法中,我们经常会遇到分类特征,例如:人的性别有男女,祖国有中国,美国,法国等。 这些特征值并不是连续的,而是离散的,无序的。目的: 如果要作为机器学习算法的输入,通常我们需要对其进行特征数字化。什么是特征数字化呢?例如: 性别特征:["男","女"] ...原创 2019-04-27 16:01:13 · 55130 阅读 · 9 评论 -
机器学习数据预处理2:词向量 (word2vec)
google 两篇关于 word2vec 的论文:[1]Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at ICLR, 2013.[2]Tomas...原创 2019-04-28 03:31:43 · 4584 阅读 · 0 评论 -
机器学习数据预处理3:结点向量 (node2vec)
论文题目:node2vec: Scalable Feature Learning for Networks论文arXiv地址作者提供的博客地址源代码GitHub地址--------------------------------------------------1.背景(1) 如何对图建模?深度学习在 图像(CV,CG,DIP) 和 自然语言处理 (NLP)等领域有很好的...原创 2019-04-28 17:30:40 · 3160 阅读 · 0 评论 -
node2vec python 实现和理解
1. 安装pip install node2vec2. 使用案例import networkx as nxfrom node2vec import Node2Vec# Create a graph 这里可以给出自己的graphgraph = nx.fast_gnp_random_graph(n=100, p=0.5)# Precompute probabilities ...原创 2019-05-05 19:58:00 · 14263 阅读 · 11 评论 -
word2vec 番外篇 2—— 在 TensorFlow 中实现 softmax Word2Vec 方法 (持续更新)
本文代码1. word2vec 结构与其他机器学习模型一样,该网络也有两个组件:1. 一个用于将所有 数据转换 为 可用格式2. 一个用于对数据进行 训练、验证和测试2. 本文内容1. 介绍如何 将数据收集成可用的格式2. 对模型的 TensorFlow 图进行讨论3. 代码解读 3.1 下载文本数据 TensorFlow 有几个函数,...原创 2019-05-12 01:48:53 · 403 阅读 · 0 评论 -
NLP
关键思想:NLP 的关键思想之一是如何有效地将单词转换为数字向量,然后将这些数字向量「馈送」到机器学习模型中进行预测。原创 2019-05-07 09:58:11 · 182 阅读 · 0 评论 -
word2vec 番外篇 1—— Skip-Gram 方法介绍
1. 一些定义功能:输入一个词,然后试着估计 其他词 出现在 该词附近 的概率。gram 含义:是一个有 n 个单词的组 (group),其中 n 是 gram 的窗口大小 (window size)。例如:「The cat sat on the mat」这句话用 3 个 gram 表示的话,是「The cat sat」、「cat sat on」、「sat on the」、「o...原创 2019-05-08 11:37:44 · 415 阅读 · 0 评论