自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

木筱雪的专栏

主要是一些学习笔记

  • 博客(63)
  • 资源 (3)
  • 收藏
  • 关注

原创 tf.estimator.train_and_evaluate() 训练与测试不一致

问题背景以一个简单的分类任务为例,在处理完数据之后,使用如下code进行训练:estimator = tf.estimator.Estimator(model_fn, 'model', cfg, params)train_spec = tf.estimator.TrainSpec(input_fn=train_inpf, hooks=[])eval_spec = tf.estimator....

2019-11-03 20:25:17 2743

原创 Plot 绘制点图

可视化能帮助我们更好的理解高维空间到底发生了什么。一般可以使用matlba的pyplot来进行绘制:import matplotlib.pyplot as pltscatter对二维空间点进行绘制,最简单的如下:"""Simple demo of a scatter plot."""import numpy as npimport matplotlib.pyplot as pl...

2018-12-19 15:53:40 16008

原创 pytorch 代码笔记

转到pytorch之后,还没有系统的学习,然而在看一些源码的时候,还是遇到了不少由于版本以及API变动所带来的一些问题,然鹅网上关于这件事的相关资料较少,暂时记录一下,以后有空了再探究一下底层实现细节问题。torch.cat()input param:[ tuple, dim=]return : tensorproblem describe:本来正常使用应该不会有什...

2018-12-02 13:28:30 8948 3

原创 均匀分布差生正态分布

文章目录中心极限定理中心极限定理中心极限定理是说,n只要越来越大,这n个数的样本均值会趋近于正态分布,并且这个正态分布以u为均值,sigma^2/n为方差。换句话说,假设我们与样本x1,x2....xnx1, x2....x_nx1,x2....xn​, 并且已经知道E(x)=u,D(x)=σ2E(x) = u, D(x) = \sigma^2E(x)=u,D(x)=σ2;令变量Y=x1+...

2018-09-17 21:57:42 893

原创 Logistic 回归

[TOC] Logister 回归虽然名称叫做回归,但其实是一种分类模型; 在周志华老师的西瓜书中,把这一方法叫做:对数几率回归,其实看完整个推导过程,感觉这个名称更合适一些。几率就是一个事件发生的概率和不发生的概率的比值;问题描述:已知某些样本x,具有n个特征值w1,w2...wnw1,w2...wnw1,w2...w_n, 以及对应的标签yyy; 对样本x进行正确分类;解...

2018-09-15 20:35:45 742

原创 Python3 编码问题:UnicodeEncodeError: 'ascii' codec can't encode character '\U0001f621' in posit

错误描述及分析最近跑程序遇到一个很神奇的问题,程序在输出的时候,前面都是正常的,但是中间同样的code在执行的时候却报错: UnicodeEncodeError: ‘ascii’ codec can’t encode character ‘\U0001f621’ in posit在本地打印出’\U0001f621’,显示是一个愤怒的表情:print('\U0001f621')但是...

2018-06-24 21:07:49 17435 16

原创 tf axis = 1

总是搞不清楚在axis上加减的结果,例子如下:import tensorflow as tffrom scipy.spatial.distance import pdist, squareformclass EmbeddingTable(object): def __init__(self, ini): self.embedding_table = tf.g...

2018-04-30 22:30:13 657

原创 python 包调用问题

最近经常遇到需要在一个包中调用另一个包里面文件的问题, 我自己目前创建的目录如下: 如果想要在ppdb_train.py调用models里面的word_avg_model.py, 可以这样:from university.models.word_avg_model import *需要注意的是: university 是一个package, 如果创建的是一个directo...

2018-04-28 15:25:05 614

原创 面试题39 二叉树相关面试题目

Q1. 二叉树的深度。输入一颗二叉,从根节点到叶子节点,路径的长度为深度;solution: 依然采用分而治之的方法。Q1. 判断二叉树是否为平衡二叉树。...

2018-03-26 15:21:51 168

原创 面试题38:数字在排序数组中出现的次数

6.3 知识迁移能力描述: 统计一个数字在排序数组中出现的次数。solution1. 哈希直接利用哈希表存储;时间复杂度是O(n); 解法并不是最优的,而且没有利用排序数组这个信息;solution2. 二分查找利用二分查找,先找到这个数字,然后再顺序遍历,得到出现的次数;时间复杂度依然是O(n),不可取;solution3. 二分查找改进版如...

2018-03-26 14:44:39 210

原创 F1 score | why softmax | loglikehood & cross-entropy

F1 score | why softmax | loglikehood & cross-entropy最近找工作面试涉及到了很多研一时候学习的基础知识,很多都忘记了,重新整理一下相关的问题,更侧重和NLP相关的一些知识。F1 scoreaccuracyprecisionrecallf1 score一位同学面试的时候设计被问到,机器翻译中的BLEU的计算,是以...

2018-03-23 22:19:30 511

原创 tf的一些坑

TypeError: Fetch argument 2.5663886 has invalid type for sentence1, sentence2, ll in data: _, cost = sess.run([train_op, cost], feed_dict={s1: sentence1,

2018-01-02 15:41:38 286

原创 Python实现迭代器

===== 持续更========一. iteratordeep learning for nlp, 在构建模型之后,总是设计到数据处理的问题,需要将很大的文件split为一个个的batch, 用一个迭代器来做这件事情,代码看起来显得异常优雅,那么如果来构建自己的迭代器呢?我们来看一下python迭代器实现的内部机制。 我们比较常见到的迭代器的形式是:for i in obj 程

2017-12-31 10:25:05 349

原创 Tensorflow 实战(-) 基础知识

1. tensorflow 介绍1.1 设计理念 1) 图的定义与图的运行是分离开的 简单来说,就是定义了一个操作,但是并没有真正去运行, tensorflow 被认为是一个符号主义的库。 编程模式分为命令式编程和符号式编程, 2) TensorFlow 中涉及的运算都在在图中,图的运算只能在session中,过程就是启动会话之后,用数据去填充节点

2017-09-15 23:51:19 337

原创 Linux下Anaconda安装tensorflow-gpu

Linux下去官网下载需要版本的anaconda,官网有windows、Linux、mac对应的版本:安装:bash Anaconda3-4.4.0-Linux-x86_64.sh 一路回车根据提示安装就好了因为我是在组内服务器部署,需要给服务器联网,(能上外网就不必了…) 在~/.profile 加入下面语句:export myproxy=114.212.82.105:808 http

2017-09-06 11:20:09 6855 5

原创 Flask入门

前段时间研究了下seq2seq, 想写个web,显示结果,让同组同学测试一下,然后最近就研究了一下python web相关内容,遇到了一些坑,记录一下。项目需求web页面上显示三个输入框:用户在第一个输入框输入句子,回车之后,把数据提交到后台,处理之后结果显示在第二个输入框,第二个输入框数据回车之后,后台处理,得到的结果显示在第三个输入框。python + flask因为seq2seq用tensor

2017-09-02 19:38:54 314

原创 windows bat命令

windows bat1. delims用在for命令的参数f语句中,“for /f”用于解析字符串。比如有文件”musci list.txt”: 序号、歌手名-歌曲名.后缀名 1、饶天亮-玫瑰爱人.wma 2、高一首-我不愿错过.mp3 3、黃凱芹-傷感的戀人.MP3 4、黄灿-黄玫瑰.lrc 5、黎姿-如此这般的爱情故事.mp3code1: prin

2017-06-08 20:34:21 370

原创 Tensorflow创建循环神经网络

虽然已经接触deep learning很长一段时间了,也看了很久rnn相关的代码,但是突然想用tensorflow实现一些功能的时候,突然发现丝毫没有头绪,找了一些资料,学习了一波,记录一下。一、tensorflow实现RNN celltensorflow由于不同的版本改动较大,在1.0版本之后,可以使用如下语句来创建一个cell:from tensorflow.contrib import rn

2017-05-25 21:31:34 2378 1

原创 概率 & 采样

Inference and Decision some notation: p(D|\theta) 表示的并不是一个条件概率,这是一个关于\theta的函数; p(x_i|\theat)表示的是一个PDF,这里的\theta是一个定值;生成模型: 根据P(x|y) 和p(x), 利用贝叶斯求出p(y|x); 判别模型:直接求出(y|x) 这些模型分为两个步骤: inference:

2017-05-15 17:08:47 416

原创 nmake下一些错误的解决办法

最近需要安装一下liblineaner这个库,https://github.com/cjlin1/liblinear windows下面的安装过程如下:1. Open a dos command box and change to liblinear directory. Ifenvironment variables of VC++ have not been set, type""C:\Pr

2017-04-25 12:42:21 2120

转载 欢迎使用CSDN-markdown编辑器

文章转自: http://www.hdb.com/article/6eju.html深度学习江湖目前有四座山头,分别是:Geoff Hinton、Yann Lecun、Yoshua Bengio、Andrew Ng。这里面Geoff Hinton去年加入Google搞Google Brain, Yann Lecun去年加入Facebook任人工智能研究室主任,最新的消息Andrew Ng加盟某厂搞

2017-03-30 11:34:19 231

原创 Python

由于Python是项目用到现学的,感觉很多基础的语法会 忘记,所以这篇文章主要是记录一些小的细节。一。计算程序模块时间。start_time = time.clock()end_time = time.clock() # 返回的是以秒为计算单位的。timestamp = end_time - start_time 二、类型转换问题# 浮点型转为strx = 0.23string_x =

2016-12-06 22:26:43 256

原创 Linux trick

Windows上,可以使用Xshell来远程控制Linux,这个时候如果断开了连接,那么服务器运行的程序就会断开,而且直接运行,信息是打印在屏幕上的。那么,如何要让程序在后台运行,然后我们可以在终端输入命令呢? 可以使用如下命令: nohup(no hang up) nohup 【command】 & 比如要运行一个Python文件,可以这样: nohup python -u main.p

2016-11-09 19:38:18 365

原创 hadoop实现文档倒排

可以参考这篇博客,写的非常详细,但是本人在写的时候,还是遇到了一下问题,如下: 多写这个链接的作者: https://zhidao.baidu.com/question/331122909420488445.html很多类在mapred和mapreduce中分别都有定义,其中mapred是老的API 而mapreduce是新的API: public class MyJob extends C

2016-11-01 16:33:19 632

原创 install ubuntu

after install ubuntu, I can’t get start with a choose of windows any more. it just get into ubuntu directly.solve method: start ubuntu, using ctrl+alt+T to open terminal , and using this command to e

2016-10-23 13:18:17 538

原创 分类问题

特征值为空如何处理?参考资料: https://www.zhihu.com/search?type=content&q=%E7%89%B9%E5%BE%81%E5%80%BC%E4%B8%BA%E7%A9%BA 最后决定取均值了。 不过这个问题还是值得思考的,依研究问题的不同,做法也不尽相似,基本思想就是根据其他数据信息来进行填充,这对于图像处理来说是个不错的选择。仔细想想,我的特征值是距离,

2016-10-22 15:39:32 342

原创 embedding

what is emddingembedding就是把字词用向量表示出来,相当于是对字词做encodingmotivation比如 猫,狗,我们当然可以直接把他们表示为一些独立的离散符号,但是这样的表示毫无意义,而且会产生大量稀疏数据。使我们在训练统计模型时不得不寻求更多的数据。而词汇的向量表示将克服上述的难题。backgroundVSM(vector space model) 核心思想就是把一

2016-10-16 11:59:36 7775

原创 VMware 安装Ubuntu

如何安装,网上很多资源,就不在介绍了。1。安装之后,Ubuntu一直无法全屏,而且无法复制黏贴到主机信息。解决办法:安装VMware Tools直接点击 虚拟机->VMware Tools 安装,然后会得到一个tools的安装包,再去解压,然后按照这些命令:http://www.cnblogs.com/jlzhou/p/3886729.html2。不希望Ubuntu自动锁屏。 使用Ubun

2016-10-14 21:46:24 436

原创 NLP基础知识

未登录词: OOV(out of vocabulary) UNK (unknown)http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation

2016-10-14 16:01:40 1568

原创 Git

Git的安装在Linux下面的安装,比较简单,我是用Ubuntu14.4 版本。 可以用 git命令查看自己本机是否安装git。 Linux会给出安装提示:sudo apt-get install git安装之后,$ git config --global user.name "Your Name"$ git config --global user.email "emai...

2016-10-11 23:22:54 357

原创 KD树

最近的作业需要用到KNN,简单看了一些资料,发现一篇还不错的文章,非常感谢这位博主的介绍和总结,本文主要是基于此做的一些粗略笔记: http://blog.csdn.net/u010551621/article/details/44813299关于KNN,思想非常简单,就是寻找离自己最近的k个点。 一种常见的用法是:做分类器。找到最近的k个点,按照少数服从多数的思想。 另一种常见用法是:构建图

2016-10-10 14:39:28 767 1

原创 tensorflow- MNIST机器学习入门

tensorflow mnist

2016-10-02 15:30:33 1305

原创 pycharm 2016.2.2 激活码

43B4A73YYJ-eyJsaWNlbnNlSWQiOiI0M0I0QTczWVlKIiwibGljZW5zZWVOYW1lIjoibGFuIHl1IiwiYXNza WduZWVOYW1lIjoiIiwiYXNzaWduZWVFbWFpbCI6IiIsImxpY2Vuc2VSZXN0cmljdGlvbiI6IkZvciBlZHVj YXRpb25hbCB1c2Ugb25seSIsImNoZW

2016-09-05 14:38:12 1252

原创 句法结构分析

一。句法结构分析的主要任务句法分析就是判断一个句子是否符合给定的语法,分析出合乎语法的句子的句法结构。 任务1. 判断字符串是否符合某种语言; 任务2. 消除词法和结构方面的歧义; 任务3. 分析句子的内部结构,如成分构成,上下文关系。构造一个句法分析器,需要考虑一下两个方面: - 句法形式化表示。(形式化的语法规则构成语法规则库) - 词条信息(词性、动词的配价和中心词信息)描述。

2016-07-31 17:21:24 4509

原创 EM 算法

因为时间原因实在是来不及一一看那些书籍,经学长指点,直接学习统计翻译的em算法,然后是基于短语的概率翻译表提取,再者就是去学习bp神经网络。em在ibm model1中的应用,看了很久才看明白,当我以为自己看懂了的时候,学长让我用一句话概括一下em,我竟一时语塞,才惊觉其实并不是很懂。于是老老实实去翻看李航老师的《统计学习方法》,第九章详细介绍了em算法,也加深了自己的印象。什么是EM简单来说,em

2016-07-04 23:35:16 633

原创 DBScan 算法

DBScan 是一种基于密度的聚类算法,主要算法流程如下图:DBSCAN(D, eps, MinPts) C = 0 //类别标示 for each unvisited point P in dataset D //遍历 mark P as visited

2016-04-26 15:40:08 616

原创 加权

最近在研究约束聚类的问题,在查资料的时候看到很多weighted cluster,原来是加权聚类的意思,仔细想想这个“加权”是什么个意思嘛。回想起初中的加权平均数,这个跟算术平均数的区别又是什么呢? 举个例子,假设在某次比赛,同学评分90,老师评分85,专家评分80,但是显然专家评分应该占得比重比较高,因为是专家,评判得更标准,假设同学评分10%,老师30%,专家60%, 那么这个同学的算术平均

2016-04-20 10:50:21 953

原创 机器学习中的距离计算

1、Euclidean distance 欧氏距离 也叫作欧几里得距离,就是两个点的直线距离,计算方式就是平方差的异相加开根号。 2.Manhattan distance 曼哈顿距离 这个距离值得应该是实际生活中两点可达的距离,比如下图: 这个时候因为有河流存在,所以A不能直接到达B,需要走红色路径通过桥来去到B,这个时候AB绿色路径就是欧式距离,红色部分的路径就是Manhattan d

2016-04-19 11:04:11 479

原创 数据平滑

使用Markdown发现博文发布之后,文章的排版都乱掉了╮(╯▽╰)╭,不知道怎么回事儿,还在纠结中,本来想着要不还是使用html编辑器好了,但是想到还有好多的数学公式要打,直接HTML出来的公式实在是丑爆了,但是这Markdown真的是还是有些bug吧,而且,一堆的数据公式真的是达到兔血了,呃,,,好了,开始来干活!上一篇文章中,已经初步了解了N-gram模型,遗留下来的问题就是数据稀疏该怎么办,

2016-04-14 23:34:19 7970 2

原创 中文信息处理 N-gram模型

一. 什么是建模?模型又是什么? 建模,是人们为了理解事物而对事物做出的一种抽象,是对事务进行书面无歧义的描述。 模型就是对实际问题或者是客观规律进行的形式化的表达。二. 关于语言模型 长久以来,人们一直希望计算机可以理解我们人类的语言,从而进行一系列其他的应用,比如机器翻译,语音识别,分词,输入法,搜 索引擎的自动补全等。以前人们是进行基于规则的语言模型的研究方向,遇到了很大的问

2016-04-12 11:48:59 7089 3

Winpcap监听ftp并且过滤出用户名和密码

这是计算机网络中,利用winpcap来监听ftp用户名和密码,对于学生学网络底层的帧格式是很有帮助的

2015-05-03

熟悉Linux系统环境试验

在Linux操作系统下对c进行编译,并且熟悉各种指令

2015-01-01

关于cookie,application和seesion的一些用法整理

这些事自己整理的一些文档,适合于初学者.这里面涵盖了cookie的写法,如何新建cookie,cookie的用法

2013-12-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除