自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(221)
  • 资源 (2)
  • 收藏
  • 关注

原创 TensorFlow进阶系列

不定期更新TensorFlow高级API(Estimator <1>)TensorFlow高级API(Estimator <2>)TensorFlow高级API(Estimator <3>)TensorFlow与NLP(词袋模型)TensorFlow与NLP(CNN文本分类)TensorFlow与NLP(词向量)...

2019-11-08 14:13:19 319

原创 TensorFlow入门系列

不定期更新TensorFlow基础系列(Hello,TensorFlow)TensorFlow基础系列(逻辑回归)TensorFlow基础系列(softmax回归)TensorFlow基础系列(神经网络NN)TensorFlow基础系列(TFRecord)TensorFlow基础系列(TFRecord)...

2019-11-08 14:11:45 274

原创 Python数据分析入门

Python数据分析流程和学习路径我们直接看图,这样比较清晰学习路径python读写数据利用python处理数据利用python分析建模具体内容目录快速入门numpy(一)快速入门numpy(二)快速入门pandas...

2019-01-04 14:19:19 493

原创 机器学习笔记

开篇拖了很久,才开始复习一些机器学习模型,这边依旧是一个检索目录,本目录下面的博客可能不会太过精美,甚至很多公式可能就是手写的,但是希望能够浅显的帮助大家复习和学习机器学习的一些知识,当然有代码的还是会奉上一些代码索引机器学习中的隐变量和隐变量模型概率图模型隐马尔可夫模型...

2018-08-30 14:58:19 397

原创 大数据笔记

介绍主要分为两个部分,首先是大数据的概述,会介绍各种类型的大数据框架和相应的技术,其次是spark的笔记大数据原理大数据笔记(一):HDFSIntellij idea下hadoop的开发环境搭建和相应的编程实践(HDFS)大数据笔记(二):HBase大数据笔记(三):Map-Reduce大数据笔记(四):Hive大数据笔记(五):Hadoop大数据笔记(六):S...

2018-08-08 09:19:17 570

原创 深度学习理论笔记和实战源码解读

开篇同样是一个检索目录,希望能够帮助自己和大家学习和复习相关的理论知识,同时我也会定期放上一些源码的解读。目录

2018-08-03 08:31:54 453

原创 剑指offer & Leetcode 题解集

这是一个检索目录

2018-07-27 13:50:58 619

原创 数据结构与算法(python)

开篇使用python来实现一些算法和数据结构,大部分内容来自于各个书籍和网络资源,不定期更新,这是一个目录。点击相应的目录就可以跳到相应的博客。目录...

2018-06-10 14:13:42 841 1

原创 NLP的基本任务和对应的算法

开篇这边给自己挖个大坑,这边主要讲一些基本的nlp任务和对应的算法,希望给大家一个对应的索引,以便去很好的寻找相对应的算法,也希望能够和我未来写的博客建立起来链接。目录注意这边这是一个目录,我会慢慢丰富这个目录,然后建立目录和相应的博客链接。句法分析 算法:基于Bi-LSTM-CRF算法体系,以及丰富的多领域词表句法分析(依存句法分析、成分句法分析) 算法:shift-re...

2018-05-22 12:34:56 9697

原创 推荐系统中的多任务学习(—)

什么是多任务学习多任务学习旨在共同学习多个任务,探索多个任务间通用的可共享的信息和任务特有的信息。从人类的学习过程来看,往往我们在学习一个新的任务时,会应用已有的知识。什么时候需要多任务学习多目标优化,例如电商推荐中,ctr和cvr以及price都是不同的优化目标,但是它们彼此之间肯定不应该是孤立的,尤其是ctr和cvr本身就天然存在贝叶斯关联。分开各自训练一个模型,不但会割裂它们之间的联系,也会带来严重的预测偏差存在关联的多场景,例如电商推荐中,购后的链路就存在多个场景,它们彼此都属于购后的推荐

2020-05-12 16:26:54 981

原创 TensorFlow基础系列(逻辑回归:eager模式)

前言上一篇逻辑回归的已经不知道是猴年马月写的,这里贴一下eager模式的。很多都api化,好处代码清晰,缺点是有些原来可能就没有那么清晰了。下面我们直接看代码''' Logistic Regression with Eager API.A logistic regression learning algorithm example using TensorFlow's Eager API....

2019-11-15 19:47:40 532

原创 TensorFlow基础系列(线性回归)

线性回归比较基础的模型,这边不多介绍,这里主要将tensorflow的基本编程模式TensorFlow的一般模式是,先构建图(也就是你的模型),然后使用sess往图里注入数据。迭代训练图中的各项参数。废话不多说,我们直接看带session的代码。A linear regression learning algorithm example using TensorFlow library....

2019-11-15 19:34:09 365

原创 TensorFlow高级API系列(三):Dataset API

前言tf.data非常的好用,这里不多说,如果你停留在placeholder,feed_dict,你可能对这篇博客并不感兴趣。如果在处理大规模数据,tf.data就极其好用了。从内存里面读取数据我们先放代码,再慢慢解读import tensorflow as tfimport numpy as npdataset = tf.data.Dataset.from_tensor_slice...

2019-11-08 15:04:20 704

原创 什么是TensorFlow Records (Tfrecord)?该怎么使用?

一段奇怪的翻译Tensorflow一个不太为人所知的组件是TFRecord文件格式,这是Tensorflow自己的二进制存储格式。如果您正在处理大型数据集,使用二进制文件格式存储数据会对导入管道的性能产生积极的影响,从而减少模型的训练时间。二进制数据在磁盘上占用的空间更少,复制所需的时间更少,而且可以更有效地从磁盘读取数据。如果你的数据存储在磁盘上,二进制会让你获得更好的读写性能。然而,纯...

2019-11-04 21:13:06 1511

原创 tensorflow中的tfrecords

基础数据格式三种基础数据类型:bytes,float,int64对应tf.train中三种类型:BytesList (字符串列表), FloatList (浮点数列表), Int64List (64位整数列表),构造它们三个依照下面的方式传入相对应的value。tf.train.BytesList(value=[context_idxs.tostring()]tf.train.Int64L...

2019-11-04 20:22:22 333

原创 hive骚操作

LATERAL VIEW explode很多时候我们希望把一个json,或者list拆成多行,这种在关系数据库里面是不允许的。但是hive还是能够进行这样的操作https://blog.csdn.net/guodong2k/article/details/79459282https://www.deeplearn.me/2892.html主要作用是行转列...

2019-11-01 15:09:06 288

原创 TensorFlow基础:Hello TensorFlow

前言每天花点时间整理一些TF的知识点包括tensorflow1.0和tensorflow2.0hello TensorFlow初见sessionfrom __future__ import print_functionimport tensorflow as tf# Simple hello world using TensorFlow# Create a Constant ...

2019-10-29 23:23:44 396

原创 搜索推荐中的一些效果指标

pv(访问量):即Page View, 具体是指网站的是页面浏览量或者点击量。uv(独立访客):即Unique Visitor,访问您网站的一台电脑客户端为一个访客。根据IP地址来区分访客数,在一段时间内重复访问,也算是一个UV。UV价值=销售额/访客数。意思是每位访客带来多少销售额。不同平台的uv价值是不一样的JD的uv价值=下单金额/访问数 TB的uv价值=支付金额/访客数UV价值=...

2019-10-28 21:49:37 1093

原创 TensorFlow高级API系列(二):从源码看如何自定义estimator

源码解析上一篇博客,实例化estimator的代码如下:tf.estimator.Estimator( model_fn=model_fn, # First-class function params=params, # HParams config=run_config # RunConfig)我们从这个实例化进入,看我们需要传给estimator的参数都...

2019-10-26 15:55:18 349

原创 Tensorflow高级API系列(一):Estimator是什么?

前言最近一直在做CTR预估的模型,为了应对大规模数据和导出更加易用的线上模型导出模型的问题,不得不放弃session,placehoder这种比较原始的tensorflow编码。使用更加高级的estimator api,说是高级api,让tensorflow编码更加简单,但是里面还是有不少的坑,在网上也找了各种案例,但还是太模式化,官方的教程也只针对简单的案例。这边为了避免重复工作,有比较好的教...

2019-10-26 15:07:23 2556

原创 用estimator构建一个简单的神经网络

estimator最主要的就两个部分input_fnmodel_fn模型可以自定义输入需要转成字典import osimport pandas as pdimport tensorflow as tfFUTURES = ['SepalLength', 'SepalWidth', 'PetalLength', 'PetalWidth', 'Species']SPECIES =...

2019-09-18 14:09:43 392

原创 基于Bi-LSTM-CRF的中文命名实体识别(简单源码解析)

概述这篇博文主要进行源码的一些解析,至于像LSTM和CRF这种算法的原理不做过多的解释,在代码中它们也被简单的封装成一两行代码。CRF的理论至今很少见到比较详尽易懂的博客,基本是怼公式,我看得也是云里雾里,为了快速上手,还是决定从源码搞起,先把东西做了,再补细节。代码部分还是先放一张模型的整体图,希望大家有个整体的把握。主要的就三层,look-up,lstm,crf,架构还是比较清晰的。...

2019-08-06 17:49:47 4898 2

原创 pycharm如何实现本地写代码,服务器运行

无图形界面的代码编写python代码作为脚本语言,其实最好直接使用vim在字符界面里面直接编写,这才是正道,但是作初学者,其实直接在服务器上写代码是很不习惯的,所以我这边希望能写一篇帮助师弟师妹使用本地的ide编写代码,然后服务器的解释器运行代码。原理如何本地写代码,服务器运行呢?其实原理还是比较简单的,就是一个ssh同步本地和服务器代码的工程,ide会自动同步你的本地代码到服务器上,同时...

2019-03-18 19:31:49 15748 5

原创 python3中不能打开带中文url的解决方案

一个编码报错UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 11-13: ordinal not in range(128)UnicodeEncodeError: 'ascii' codec can't encode characters in position 11-13: ordinal not i...

2019-01-23 21:28:46 1334 1

原创 ubuntu 16.04安装cuda 9.0详细教程(带你跨过所有的坑)

开篇的一些废话现在大概是晚上12点左右,和同门说了一些废话,耽误博客的整理了。其实研一刚入学的时候我就在搞cuda了,那时候不是为了做深度学习的应用,而是为了写cuda-c,也就是cuda编程,第一次安装也是在win10,windows安装cuda总是需要装vc++,挺麻烦的。后来深度学习火了,就开始搞tensorflow,底层需要cuda调用gpu,我也就开始尝试在linux系统上安装cuda...

2019-01-09 00:18:32 6141 3

原创 如何摆脱内网ip和物理mac地址的绑定

内网ip最近学校实验室的机器申请了内网ip,使用静态ip可以访问校内的一些服务器,但是要命的是它不能访问外网,不能下载东西。由于你的mac地址绑定了ip,使得你在校园网无法获取动态ip,也就无法使用校园网登录。等待学校解绑你的mac地址那得等上一段时间,我现在就想上网怎么办呢以下操作对最新的centos(1804)不起作用我想到的第一个方法是换个mac地址不一样的网卡不就成了,所以我找了同学...

2019-01-06 21:58:13 2909

原创 快速入门Pandas

思维导读

2019-01-04 14:07:29 343

原创 快速入门numpy(二)

通用函数(元素级)这边就是一些计算的函数,大家熟悉一下就成,如果用到可以查询相关的文档。计算x和y中元素级别最大的元素modf函数,它会返回浮点数数组的小数和整数部分这边放一些函数表利用数组进行数据处理...

2019-01-03 21:28:23 429

原创 x299平台装linux系统的一些天坑

年前实验室为了配置大内存的服务器,受限于经费,我们只能使用比较便宜的游戏板,选择了微星的x299平台,买回来自带win10,回来的第一件事就是装linux,习惯上我会装centos,因为比较稳定,结果安装报错,还花屏,就是看不到报错信息,我想应该是显卡驱动的问题,所以换上Ubuntu,结果还是一样。其实最大的问题就是引导问题,根据网上的经验重新刷了主板驱动,还是没有什么卵用,最后去不得不尝试了国产...

2019-01-02 15:54:26 2130

原创 快速入门numpy(一)

正文开始前的一些废话好久没有写博客了,关于数据分析类的python库其实很久前就学习过,但是编程这种东西,不使用就很容易忘记,结束秋招已经有漫长一段时间了,选择了数据挖掘工程师这个岗位,需要学习的东西慢慢变多了,很多东西不熟悉是不行的,所以我想写一系列数据分析的博客,依旧是大坑,不定期更新。我想这一系列的东西还是从基本的编程开始比较合适,这里也推荐一本入门python数据分析的书籍,利用pyth...

2019-01-02 15:45:22 423

原创 Macbook外置移动硬盘安装win10教程

离不开的windows系统12年我拥有了第一台mac,一台令人惊艳的超级本,同时也是一台让人头疼的电脑,mac系统优美却没有完善的软件生态。大家可能吐槽最多的就是office套件,在mac上实在是太卡,很多字体也有问题。刚开始学习cpp的时候,我发现xcode真的很不方便,很快我就失去了编程的兴趣。所以我在mac上折腾windows,那时候还没有win10,也没有windows to go,用b...

2018-12-21 11:48:47 40093 7

原创 大数据算法(亚线性算法)

亚线性算法的定义关于亚线性算法,就是字面上的意思(ps:下面的一些截图定义来源于哈工大王老师的课件);整个大数据算法的系列博客的主要内容也来源王老师在中国大学mooc上的同名课程,大家如果有什么疑问,可以去中国大学mooc上去查看相应的视频讲解,也可以在我的博客下面留言。这边主要是讲时间和空间两大类算法。...

2018-10-23 21:06:26 1940

原创 大数据算法(概述)

大数据算法的难度访问全部数据时间过长读取部分数据 时间亚线性算法数据难以放入内存计算将数据存储到磁盘上 外存算法仅基于少量数据进行计算 空间亚线性算法单个计算机难以保存全部数据,计算需要整体数据并行处理 并行算法计算机计算能力不足或者知识不足人来做(众包)我们学习的hadoop、spark不过是解决了其中一个难题。我们整个笔记也是围绕上面几个问...

2018-10-22 08:37:21 3375

原创 中文短文本相似度:WMD

开篇句子相似是目前我做问句匹配的基础。 这是我尝试使用词向量,以一种无监督方法去计算两个句子相似度的第二种方法。第一种方法,我尝试使用词向量的加权平均生成句向量来计算句子间的相似度,效果很一般,之后我会尝试使用不同的加权方法再次计算。有机会我会连着代码一起放出来。 当然我还使用了三种不同的深度学习方法来计算相似度,之后都会以代码讲解的方式呈现。WMDword mover’s dis...

2018-10-17 12:10:40 16467 12

原创 深度文本匹配模型(二):Conv-knrm模型复现

开篇这篇是基于k-nrm改进的一篇论文提出的方法。同样的作者,前后隔了一年左右的时间。前面讲k-nrm的博客我没有放出代码,这一篇我会放出一个详细的模型解读源码以供大家参考。Conv-knrmConv-knrm相比k-nrm,最大的改变就是它添加了n-gram的卷积,增加了原先模型的层次,这里有一个好处就是它能够捕捉更加细微的语义实体,交叉的粒度也更加细。这边我放上它完整的模型图,...

2018-10-17 12:09:01 7252 10

原创 深度文本匹配模型(一):k-nrm

开篇用深度学习模型去匹配句子的相似度已经是目前句子相似度的主流方法。本质上还是句子相似度的问题。深度文本匹配模型可以提供更好的搜索排序服务。它的基本场景就是:给一个query,模型返回排序靠前的document。是不是很像一个搜索引擎,其实本质上是差不多的。只不过深度文本匹配更具语义上的优势,更加智能。公司实习是做问答系统,所以最近都在刷一些文本匹配的模型,这边以博客的形式记录下来。不光是理论...

2018-10-17 12:06:16 5974 1

原创 零基础安装服务器系统(centos 7.5 u盘安装遇到的一些坑)

开篇最近实验室采购的新的机器,需要安装linux系统,之所以没有使用ubuntu,主要还是ubuntu不够稳定,在安装nvidia系统的时候有各种各样的问题,所以在尝试了各种坑之后,打算写一写一些系统安装和环境配置的博客,大家如果要配置一系列深度学习的环境,最好还是使用centos。安装前的几个小建议1、不建议把系统安装在固态硬盘上,当然如果你的固态硬盘比较大,可以忽略我的建议,实验室主要是...

2018-10-10 14:40:48 6451

原创 计算机笔记(9.20)

面试今天的面试真心有点尴尬,聊项目和技术都很流畅,最后死在了基础上了,整理一下面试的基础编程题:两个链表的交点反转一个字符串操作系统:线程和进程的区别计算网络:三次握手的过程ip找top-k个ip基础还是要复习好的...

2018-09-20 20:39:08 272

原创 机器学习面试题解(6-10)

1、HMM的三个基本问题先放上我完整理论的一些博客https://blog.csdn.net/Ding_xiaofei/article/details/81629479前一段时间刚刚复习过,但还是有一个想不起来了,在面试官的提醒下才答出来的。概率计算问题,已知HMM模型参数,和观测值,计算观测值出现的概率学习问题,已知观测序列,计算HMM的模型参数预测问题,解码问题,我们平时用的最多...

2018-09-19 14:34:56 381

原创 深度学习面试题解(1-5)

开篇今天面试了一下阿里高德,面试问题记录一波,面试的时候问得还是超级细的,深度学习算法和传统的学习算法都有问到,视频面的时候我也是一塌糊涂,不过居然莫名其妙的过了。1、梯度爆炸和梯度消失的问题,这里面还顺带问了一下sigmoid函数梯度的最大值(0.25)这部分我答的好像还不是很糟糕,放上我以前写的博客,作为大家的参考https://blog.csdn.net/ding_xiaofei/a...

2018-09-19 00:02:32 618

中文停用词词表

中文的停用词词表,没有什么特别的介绍,相信大家都知道是用来干嘛的

2018-05-17

京东手机评论数据集

json格式的京东手机评论,详细地介绍请参照我的博客https://blog.csdn.net/Ding_xiaofei/article/details/80335279

2018-05-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除