自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

永远飞翔的鸟

专注于人工智能和大数据,以永恒之心,书写技术之美

  • 博客(8)
  • 资源 (6)
  • 收藏
  • 关注

原创 自然语言处理之词移距离Word Mover's Distance

目录一、从EMD到WMD二、词移距离(WMD)举例说明带监督的词移距离(Supervised Word Mover’s Distance)三、word2vec实现词移距离四、词移距离来衡量唐诗诗句的相关性一、从EMD到WMDEMD算法简介,该部分引用自[1]。Earth Mover’s Distance (EMD),和欧氏距离一样,他们都是一种距离度量的定...

2018-03-16 07:49:37 3565

原创 自然语言处理之Doc2Vec的原理和使用

摘要:本文主要描述了一种文章向量(doc2vec)表示及其训练的相关内容,并列出相关例子。两位大牛Quoc Le 和 Tomas Mikolov(搞出Word2vec的家伙)在2014年的《Distributed Representations of Sentences and Documents》所提出文章向量(Documents vector),或者称句向量(Sentences vector)...

2018-03-13 21:35:53 2688

原创 自然语言处理之Word2vec 使用教程

本文主要基于Radim Rehurek的Word2vec Tutorial.**准备输入**Gensim的word2vec的输入是句子的序列. 每个句子是一个单词列表代码块例如:>>> # import modules & set up logging>>> import gensim, logging>&...

2018-03-08 19:35:48 2389

原创 自然语言处理之文本向量化(词袋模型、TF-IDF)

目录1.词袋模型(Bag of words,简称 BoW )2.词频向量化3.TF-IDF处理3.1TF3.2IDF4 CountVectorizer与TfidfVectorizer的异同:5.sklearn中TfidfTransformer和TfidfVectorizer对tf-idf的计算方式6.实战文本数据预处理的第一步通常是进行分词,分词后会进行...

2018-03-07 19:00:34 8271 1

原创 自然语言处理之中文文本分析(jieba分词、词袋doc2bow、TFIDF文本挖掘)

中文分词常用的分词工具有jieba等,本文以jieba分词为例,讲解中文文本分析。一、jieba分词来源github:https://github.com/fxsjy/jieba1、主要模式支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对...

2018-03-05 20:32:37 10169 6

原创 自然语言处理之gensim入门和流式实现

Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口。gensim中基本概念语料(Corpus):一组原始文本的集合,用于无监督地训练文本主题的隐层结构。语料中不需要...

2018-03-03 22:20:39 3146

原创 机器学习之房价预测实战

背景kaggle地址:https://www.kaggle.com/c/house-prices-advanced-regression-techniques/overview赛题给我们79个描述房屋的特征,要求我们据此预测房屋的最终售价,即对于测试集中每个房屋的ID给出对于的SalePrice字段的预测值,主要考察我们数据清洗、特征工程、模型搭建及调优等方面的技巧。本赛题是典型的...

2018-03-02 20:07:15 2951

原创 循环神经网络之理解 LSTM 网络 (Understanding LSTM Networks by colah)

目录1. 循环神经网络(RNNs)2. 长时期依赖存在的问题3. LSTM 网络3.1 LSTMs 的核心思想3.2 逐步理解 LSTM3.2.1 遗忘门3.2.2 传入门3.2.3 输出门4. LSTM 的变种 GRU5、对比6、应用7、LSTM网络中参数计算前言:其实之前就已经用过 LSTM 了,是在深度学习框架 keras 上直接用的,但是...

2018-03-01 07:42:09 3225

FTRL_FM_LR.html

使用FM和LR分别进行了FTRL优化,包含详细的调试步骤

2020-03-06

alphaFM-master.zip

FM_FTRL实现

2020-03-05

OnlineLearning_BasicAlgorithm-master.zip

在线学习优化方法SGD-OGD-FOBOS-RDA-FTRL-FTML 总结

2020-03-05

train_mnist.zip

采用dcoker搭建tensorflow_sever对外服务。代码采用minist数据集,训练了模型,并保存为PB文件,然后使用docker容器搭建了tensorflow_sever,并进行了测试。

2020-02-26

minist_tensorflow_pb_train_predict.zip

tensorflow训练手写数字识别模型,保存为pb文件,并采用pb文件进行预测。 tensorflow训练手写数字识别模型,保存为pb文件,并采用pb文件进行预测。 tensorflow训练手写数字识别模型,保存为pb文件,并采用pb文件进行预测。 tensorflow训练手写数字识别模型,保存为pb文件,并采用pb文件进行预测。 tensorflow训练手写数字识别模型,保存为pb文件,并采用pb文件进行预测。

2020-02-22

Word2Vec中的数学原理详解.pdf

从数学角度详细讲解word2vec模型的原理,目录如下:(一)目录和前言(二)预备知识(三)背景知识(四)基于 Hierarchical Softmax 的模型(五)基于 Negative Sampling 的模型(六)若干源码细节

2020-02-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除