自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 TensorFlow进阶系列

不定期更新 TensorFlow高级API(Estimator <1>) TensorFlow高级API(Estimator <2>) TensorFlow高级API(Estimator <3>) TensorFlow与NLP(词袋模型) TensorFlow与...

2019-11-08 14:13:19 87 0

原创 TensorFlow入门系列

不定期更新 TensorFlow基础系列(Hello,TensorFlow) TensorFlow基础系列(逻辑回归) TensorFlow基础系列(softmax回归) TensorFlow基础系列(神经网络NN) TensorFlow基础系列(TFRecord) TensorFlow基础系列(...

2019-11-08 14:11:45 75 0

原创 Python数据分析入门

Python数据分析流程和学习路径 我们直接看图,这样比较清晰 学习路径 python读写数据 利用python处理数据 利用python分析建模 具体内容目录 快速入门numpy(一) 快速入门numpy(二) 快速入门pandas ...

2019-01-04 14:19:19 244 0

原创 机器学习笔记

开篇 拖了很久,才开始复习一些机器学习模型,这边依旧是一个检索目录,本目录下面的博客可能不会太过精美,甚至很多公式可能就是手写的,但是希望能够浅显的帮助大家复习和学习机器学习的一些知识,当然有代码的还是会奉上一些代码 索引 机器学习中的隐变量和隐变量模型 概率图模型...

2018-08-30 14:58:19 213 0

原创 大数据笔记

介绍 主要分为两个部分,首先是大数据的概述,会介绍各种类型的大数据框架和相应的技术,其次是spark的笔记 大数据原理 大数据笔记(一):HDFS Intellij idea下hadoop的开发环境搭建和相应的编程实践(HDFS) 大数据笔记(二):HBase 大数据笔记(三):Map...

2018-08-08 09:19:17 346 0

原创 深度学习理论笔记和实战源码解读

开篇 同样是一个检索目录,希望能够帮助自己和大家学习和复习相关的理论知识,同时我也会定期放上一些源码的解读。 目录

2018-08-03 08:31:54 289 0

原创 剑指offer & Leetcode 题解集

这是一个检索目录

2018-07-27 13:50:58 346 0

原创 数据结构与算法(python)

开篇 使用python来实现一些算法和数据结构,大部分内容来自于各个书籍和网络资源,不定期更新,这是一个目录。点击相应的目录就可以跳到相应的博客。 目录...

2018-06-10 14:13:42 633 1

原创 NLP的基本任务和对应的算法

开篇 这边给自己挖个大坑,这边主要讲一些基本的nlp任务和对应的算法,希望给大家一个对应的索引,以便去很好的寻找相对应的算法,也希望能够和我未来写的博客建立起来链接。 目录 注意这边这是一个目录,我会慢慢丰富这个目录,然后建立目录和相应的博客链接。 句法分析 算法:基于Bi-LSTM-...

2018-05-22 12:34:56 8110 0

原创 推荐系统中的多任务学习(—)

什么是多任务学习 多任务学习旨在共同学习多个任务,探索多个任务间通用的可共享的信息和任务特有的信息。从人类的学习过程来看,往往我们在学习一个新的任务时,会应用已有的知识。 什么时候需要多任务学习 多目标优化,例如电商推荐中,ctr和cvr以及price都是不同的优化目标,但是它们彼此之间肯定不应...

2020-05-12 16:26:54 113 0

原创 TensorFlow基础系列(逻辑回归:eager模式)

前言 上一篇逻辑回归的已经不知道是猴年马月写的,这里贴一下eager模式的。很多都api化,好处代码清晰,缺点是有些原来可能就没有那么清晰了。下面我们直接看代码 ''' Logistic Regression with Eager API. A logistic r...

2019-11-15 19:47:40 91 0

原创 TensorFlow基础系列(线性回归)

线性回归 比较基础的模型,这边不多介绍,这里主要将tensorflow的基本编程模式 TensorFlow的一般模式是,先构建图(也就是你的模型),然后使用sess往图里注入数据。迭代训练图中的各项参数。 废话不多说,我们直接看带session的代码。 A linear regression le...

2019-11-15 19:34:09 60 0

原创 TensorFlow高级API系列(三):Dataset API

前言 tf.data非常的好用,这里不多说,如果你停留在placeholder,feed_dict,你可能对这篇博客并不感兴趣。如果在处理大规模数据,tf.data就极其好用了。 从内存里面读取数据 我们先放代码,再慢慢解读 import tensorflow as tf import numpy...

2019-11-08 15:04:20 96 0

原创 什么是TensorFlow Records (Tfrecord)?该怎么使用?

一段奇怪的翻译 Tensorflow一个不太为人所知的组件是TFRecord文件格式,这是Tensorflow自己的二进制存储格式。 如果您正在处理大型数据集,使用二进制文件格式存储数据会对导入管道的性能产生积极的影响,从而减少模型的训练时间。二进制数据在磁盘上占用的空间更少,复制所需的时间更少,...

2019-11-04 21:13:06 493 0

原创 tensorflow中的tfrecords

基础数据格式 三种基础数据类型:bytes,float,int64 对应tf.train中三种类型:BytesList (字符串列表), FloatList (浮点数列表), Int64List (64位整数列表),构造它们三个依照下面的方式传入相对应的value。 tf.train.BytesL...

2019-11-04 20:22:22 67 0

原创 hive骚操作

LATERAL VIEW explode 很多时候我们希望把一个json,或者list拆成多行,这种在关系数据库里面是不允许的。但是hive还是能够进行这样的操作 https://blog.csdn.net/guodong2k/article/details/79459282 https://ww...

2019-11-01 15:09:06 41 0

原创 TensorFlow基础:Hello TensorFlow

前言 每天花点时间整理一些TF的知识点 包括tensorflow1.0和tensorflow2.0 hello TensorFlow 初见session from __future__ import print_function import tensorflow as tf # Simple...

2019-10-29 23:23:44 86 0

原创 搜索推荐中的一些效果指标

pv(访问量):即Page View, 具体是指网站的是页面浏览量或者点击量。 uv(独立访客):即Unique Visitor,访问您网站的一台电脑客户端为一个访客。根据IP地址来区分访客数,在一段时间内重复访问,也算是一个UV。 UV价值=销售额/访客数。意思是每位访客带来多少销售额。 不同平...

2019-10-28 21:49:37 167 0

原创 TensorFlow高级API系列(二):从源码看如何自定义estimator

源码解析 上一篇博客,实例化estimator的代码如下: tf.estimator.Estimator( model_fn=model_fn, # First-class function params=params, # HParams config=run_con...

2019-10-26 15:55:18 58 0

原创 Tensorflow高级API系列(一):Estimator是什么?

前言 最近一直在做CTR预估的模型,为了应对大规模数据和导出更加易用的线上模型导出模型的问题,不得不放弃session,placehoder这种比较原始的tensorflow编码。使用更加高级的estimator api,说是高级api,让tensorflow编码更加简单,但是里面还是有不少的坑,...

2019-10-26 15:07:23 162 0

原创 用estimator构建一个简单的神经网络

estimator最主要的就两个部分 input_fn model_fn 模型可以自定义 输入需要转成字典 import os import pandas as pd import tensorflow as tf FUTURES = ['SepalLength', &#...

2019-09-18 14:09:43 99 0

原创 基于Bi-LSTM-CRF的中文命名实体识别(简单源码解析)

概述 这篇博文主要进行源码的一些解析,至于像LSTM和CRF这种算法的原理不做过多的解释,在代码中它们也被简单的封装成一两行代码。CRF的理论至今很少见到比较详尽易懂的博客,基本是怼公式,我看得也是云里雾里,为了快速上手,还是决定从源码搞起,先把东西做了,再补细节。 代码部分 还是先放一张模...

2019-08-06 17:49:47 1899 0

原创 pycharm如何实现本地写代码,服务器运行

无图形界面的代码编写 python代码作为脚本语言,其实最好直接使用vim在字符界面里面直接编写,这才是正道,但是作初学者,其实直接在服务器上写代码是很不习惯的,所以我这边希望能写一篇帮助师弟师妹使用本地的ide编写代码,然后服务器的解释器运行代码。 原理 如何本地写代码,服务器运行呢? 其实原理...

2019-03-18 19:31:49 4752 0

原创 python3中不能打开带中文url的解决方案

一个编码报错 UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 11-13: ordinal not in range(128) UnicodeEncodeError: 'ascii' c...

2019-01-23 21:28:46 554 0

原创 ubuntu 16.04安装cuda 9.0详细教程(带你跨过所有的坑)

开篇的一些废话 现在大概是晚上12点左右,和同门说了一些废话,耽误博客的整理了。其实研一刚入学的时候我就在搞cuda了,那时候不是为了做深度学习的应用,而是为了写cuda-c,也就是cuda编程,第一次安装也是在win10,windows安装cuda总是需要装vc++,挺麻烦的。后来深度学习火了,...

2019-01-09 00:18:32 3653 3

原创 如何摆脱内网ip和物理mac地址的绑定

内网ip 最近学校实验室的机器申请了内网ip,使用静态ip可以访问校内的一些服务器,但是要命的是它不能访问外网,不能下载东西。由于你的mac地址绑定了ip,使得你在校园网无法获取动态ip,也就无法使用校园网登录。等待学校解绑你的mac地址那得等上一段时间,我现在就想上网怎么办呢 以下操作对最新的c...

2019-01-06 21:58:13 693 0

原创 快速入门Pandas

思维导读

2019-01-04 14:07:29 116 0

原创 快速入门numpy(二)

通用函数(元素级) 这边就是一些计算的函数,大家熟悉一下就成,如果用到可以查询相关的文档。 计算x和y中元素级别最大的元素 modf函数,它会返回浮点数数组的小数和整数部分 这边放一些函数表 利用数组进行数据处理 ...

2019-01-03 21:28:23 95 0

原创 x299平台装linux系统的一些天坑

年前实验室为了配置大内存的服务器,受限于经费,我们只能使用比较便宜的游戏板,选择了微星的x299平台,买回来自带win10,回来的第一件事就是装linux,习惯上我会装centos,因为比较稳定,结果安装报错,还花屏,就是看不到报错信息,我想应该是显卡驱动的问题,所以换上Ubuntu,结果还是一样...

2019-01-02 15:54:26 1021 0

原创 快速入门numpy(一)

正文开始前的一些废话 好久没有写博客了,关于数据分析类的python库其实很久前就学习过,但是编程这种东西,不使用就很容易忘记,结束秋招已经有漫长一段时间了,选择了数据挖掘工程师这个岗位,需要学习的东西慢慢变多了,很多东西不熟悉是不行的,所以我想写一系列数据分析的博客,依旧是大坑,不定期更新。我...

2019-01-02 15:45:22 144 0

原创 Macbook外置移动硬盘安装win10教程

离不开的windows系统 12年我拥有了第一台mac,一台令人惊艳的超级本,同时也是一台让人头疼的电脑,mac系统优美却没有完善的软件生态。大家可能吐槽最多的就是office套件,在mac上实在是太卡,很多字体也有问题。刚开始学习cpp的时候,我发现xcode真的很不方便,很快我就失去了编程的兴...

2018-12-21 11:48:47 17504 6

原创 大数据算法(亚线性算法)

亚线性算法的定义 关于亚线性算法,就是字面上的意思(ps:下面的一些截图定义来源于哈工大王老师的课件); 整个大数据算法的系列博客的主要内容也来源王老师在中国大学mooc上的同名课程,大家如果有什么疑问,可以去中国大学mooc上去查看相应的视频讲解,也可以在我的博客下面留言。 这边主要是讲时间和...

2018-10-23 21:06:26 868 0

原创 大数据算法(概述)

大数据算法的难度 访问全部数据时间过长 读取部分数据 时间亚线性算法 数据难以放入内存计算 将数据存储到磁盘上 外存算法 仅基于少量数据进行计算 空间亚线性算法 单个计算机难以保存全部数据,计算需要整体数据 并行处理 并行算法 计算机计算能力不足或者知识不足 人来做(...

2018-10-22 08:37:21 1429 0

原创 中文短文本相似度:WMD

开篇 句子相似是目前我做问句匹配的基础。 这是我尝试使用词向量,以一种无监督方法去计算两个句子相似度的第二种方法。第一种方法,我尝试使用词向量的加权平均生成句向量来计算句子间的相似度,效果很一般,之后我会尝试使用不同的加权方法再次计算。有机会我会连着代码一起放出来。 当然我还使用了三种不同的...

2018-10-17 12:10:40 12612 12

原创 深度文本匹配模型(二):Conv-knrm模型复现

开篇 这篇是基于k-nrm改进的一篇论文提出的方法。同样的作者,前后隔了一年左右的时间。前面讲k-nrm的博客我没有放出代码,这一篇我会放出一个详细的模型解读源码以供大家参考。 Conv-knrm Conv-knrm相比k-nrm,最大的改变就是它添加了n-gram的卷积,增加了原先模型...

2018-10-17 12:09:01 4467 10

原创 深度文本匹配模型(一):k-nrm

开篇 用深度学习模型去匹配句子的相似度已经是目前句子相似度的主流方法。本质上还是句子相似度的问题。深度文本匹配模型可以提供更好的搜索排序服务。它的基本场景就是:给一个query,模型返回排序靠前的document。是不是很像一个搜索引擎,其实本质上是差不多的。只不过深度文本匹配更具语义上的优势,...

2018-10-17 12:06:16 3679 1

原创 零基础安装服务器系统(centos 7.5 u盘安装遇到的一些坑)

开篇 最近实验室采购的新的机器,需要安装linux系统,之所以没有使用ubuntu,主要还是ubuntu不够稳定,在安装nvidia系统的时候有各种各样的问题,所以在尝试了各种坑之后,打算写一写一些系统安装和环境配置的博客,大家如果要配置一系列深度学习的环境,最好还是使用centos。 安装前的几...

2018-10-10 14:40:48 4308 0

原创 计算机笔记(9.20)

面试 今天的面试真心有点尴尬,聊项目和技术都很流畅,最后死在了基础上了,整理一下面试的基础 编程题: 两个链表的交点 反转一个字符串 操作系统: 线程和进程的区别 计算网络: 三次握手的过程 ip找top-k个ip 基础还是要复习好的 ...

2018-09-20 20:39:08 120 0

原创 机器学习面试题解(6-10)

1、HMM的三个基本问题 先放上我完整理论的一些博客 https://blog.csdn.net/Ding_xiaofei/article/details/81629479 前一段时间刚刚复习过,但还是有一个想不起来了,在面试官的提醒下才答出来的。 概率计算问题,已知HMM模型参数,和...

2018-09-19 14:34:56 168 0

原创 深度学习面试题解(1-5)

开篇 今天面试了一下阿里高德,面试问题记录一波,面试的时候问得还是超级细的,深度学习算法和传统的学习算法都有问到,视频面的时候我也是一塌糊涂,不过居然莫名其妙的过了。 1、梯度爆炸和梯度消失的问题,这里面还顺带问了一下sigmoid函数梯度的最大值(0.25) 这部分我答的好像还不是很糟糕,放上我...

2018-09-19 00:02:32 352 0

提示
确定要删除当前文章?
取消 删除