- 博客(8)
- 资源 (6)
- 收藏
- 关注
原创 自然语言处理之词移距离Word Mover's Distance
目录一、从EMD到WMD二、词移距离(WMD)举例说明带监督的词移距离(Supervised Word Mover’s Distance)三、word2vec实现词移距离四、词移距离来衡量唐诗诗句的相关性一、从EMD到WMDEMD算法简介,该部分引用自[1]。Earth Mover’s Distance (EMD),和欧氏距离一样,他们都是一种距离度量的定...
2018-03-16 07:49:37 3565
原创 自然语言处理之Doc2Vec的原理和使用
摘要:本文主要描述了一种文章向量(doc2vec)表示及其训练的相关内容,并列出相关例子。两位大牛Quoc Le 和 Tomas Mikolov(搞出Word2vec的家伙)在2014年的《Distributed Representations of Sentences and Documents》所提出文章向量(Documents vector),或者称句向量(Sentences vector)...
2018-03-13 21:35:53 2688
原创 自然语言处理之Word2vec 使用教程
本文主要基于Radim Rehurek的Word2vec Tutorial.**准备输入**Gensim的word2vec的输入是句子的序列. 每个句子是一个单词列表代码块例如:>>> # import modules & set up logging>>> import gensim, logging>&...
2018-03-08 19:35:48 2389
原创 自然语言处理之文本向量化(词袋模型、TF-IDF)
目录1.词袋模型(Bag of words,简称 BoW )2.词频向量化3.TF-IDF处理3.1TF3.2IDF4 CountVectorizer与TfidfVectorizer的异同:5.sklearn中TfidfTransformer和TfidfVectorizer对tf-idf的计算方式6.实战文本数据预处理的第一步通常是进行分词,分词后会进行...
2018-03-07 19:00:34 8271 1
原创 自然语言处理之中文文本分析(jieba分词、词袋doc2bow、TFIDF文本挖掘)
中文分词常用的分词工具有jieba等,本文以jieba分词为例,讲解中文文本分析。一、jieba分词来源github:https://github.com/fxsjy/jieba1、主要模式支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对...
2018-03-05 20:32:37 10169 6
原创 自然语言处理之gensim入门和流式实现
Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口。gensim中基本概念语料(Corpus):一组原始文本的集合,用于无监督地训练文本主题的隐层结构。语料中不需要...
2018-03-03 22:20:39 3146
原创 机器学习之房价预测实战
背景kaggle地址:https://www.kaggle.com/c/house-prices-advanced-regression-techniques/overview赛题给我们79个描述房屋的特征,要求我们据此预测房屋的最终售价,即对于测试集中每个房屋的ID给出对于的SalePrice字段的预测值,主要考察我们数据清洗、特征工程、模型搭建及调优等方面的技巧。本赛题是典型的...
2018-03-02 20:07:15 2951
原创 循环神经网络之理解 LSTM 网络 (Understanding LSTM Networks by colah)
目录1. 循环神经网络(RNNs)2. 长时期依赖存在的问题3. LSTM 网络3.1 LSTMs 的核心思想3.2 逐步理解 LSTM3.2.1 遗忘门3.2.2 传入门3.2.3 输出门4. LSTM 的变种 GRU5、对比6、应用7、LSTM网络中参数计算前言:其实之前就已经用过 LSTM 了,是在深度学习框架 keras 上直接用的,但是...
2018-03-01 07:42:09 3225
train_mnist.zip
2020-02-26
minist_tensorflow_pb_train_predict.zip
2020-02-22
Word2Vec中的数学原理详解.pdf
2020-02-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人