自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

绝望的乐园

在哪个世界都是一样的.....人们都是笑着,哭着,然后死去.....

原创 辛普森悖论

辛普森悖论是一个很有趣的统计学现象。对于研究某个事物的性质时,进行分组研究,分组的结果和总计的结果会产生截然相反的结论。这违背人类直觉,但从逻辑上却无可挑剔。 当人们尝试探究两种变量(比如新生录取率与性别)是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时...

2020-04-20 13:04:28 152 0

原创 Python3 使用Websocket通信

这篇文章写一下python如何使用websocket通信,包括server和client部分。 Websocket Server 尝试了一下:https://github.com/aaugustin/websockets ,git上star最多的,但是个人用着不是很舒服,大家有兴趣可以看看。 后面...

2020-04-17 10:24:12 162 0

原创 非酋如何计算花多少钱才能抽到SSR
原力计划

心血来潮,打算写一写抽奖的问题,目前,国家政策规定网游必须公布抽卡的概率,然而公布了概率对玩家就有用了吗?公布了概率就能提高中奖率?抽卡类的游戏有时候真的有可能令玩家怀疑人生,为什么自己抽了好几千块,什么橙卡、什么SSR,什么限定皮肤,毛都没有,网上的欧皇们随便花几块就能抽中?为什么网游公司就盯着...

2020-04-16 10:15:06 71 0

原创 简单易懂的主成分分析(PCA)
原力计划

PCA(Principal Component Analysis)是一种矩阵压缩的算法,在数据分析和机器学习等很多方向都有着应用。这篇文章的主要目的是将这个算法的原理讲的简单易懂,网上很多讲PCA的文章,但是大部分讲的并不够朴素,用了很多公式,很多图解和专有名词,但是在我看来,这些东西并不一定能降...

2020-03-29 15:57:41 161 0

原创 简单易懂的特征值与特征向量
原力计划

特征值与特征向量是线性代数中一个很基础的知识,但是很多人对这两个概念没有一个直观的概念,从直觉上,很难理解这两个东西,只知道公式,但是不知道它代表的意义。当年上现代课的时候,老师根本不会去讲这些东西,只是把公式写出来,各种推导,看的人头疼,最后索性也不去理解了,直接背下来,现在想想,体验实在糟糕,...

2020-03-14 12:08:19 192 0

原创 html5 全缓冲

最近暂时换了个网络环境,网速有些慢,看b站的时候总卡,有点头疼,现在的html5视频播放器不能把视频全部缓存,而是根据当前的进度缓存后面一分钟。也就是说,即是你暂停等待缓冲,最多也只能缓存一分钟的视频,没办法缓存一大段视频然后再看。所以我研究了一下,是否能够做到把视频全部缓存,然后再看。 先说结论...

2020-01-27 00:01:32 1426 0

原创 论文阅读: Character Region Awareness for Text Detection (CRAFT)

简介 论文链接:https://arxiv.org/abs/1904.01941 这篇论文的主要是解决文本检测的问题,思路是利用分割的方法,与图像分割有些不同的是,CRAFT不是对整个图像进行像素级分类,而是做了回归,它有两个分支,一个是目标是字符的中心的概率(这里用概率可能不是很准确,或许说是距...

2019-06-02 16:28:16 2945 6

原创 tfrecord读写数据

tfrecord 的读写数据是真的麻烦,各种不方便,而且还有些坑,不太想讲这个东西,所以这里就打算写个简单的读写模板,可以作为参考。 其实写tfrecord本质只有三个类型: bytes,int64,float。所以我们要保存的数据就转成这三种类型就行了。 另外,这几种类型的数据都是一个list的...

2019-05-17 15:12:49 524 0

原创 对 Spatial Transformer Networks(空间变换网络) 的思考

论文地址: https://arxiv.org/abs/1506.02025 这几天看了下stn,大概写一写吧。说实话,这个东西思想倒是蛮有意思的,但是实际用起来效果不好说,至少在我想要应用的场景下效果不怎么样。 这里先写论文的思路,再写一下我做的一些实验与相应的思考。 STN 目标 我们知道,C...

2019-05-07 14:55:57 607 4

原创 pytorch如何在测试的时候启用dropout

我们知道,dropout一般都在训练的时候使用,那么测试的时候如何也开启dropout呢? 在pytorch中,网络有train和eval两种模式,在train模式下,dropout和batch normalization会生效,而val模式下,dropout不生效,bn固定参数。 想要在测试的时...

2019-04-06 09:51:23 3104 0

原创 LSTM 详解

这篇文章打算讲一下LSTM,虽然这类文章已经很多了,但以前刚开始看的时候还是一知半解,有一些细节没有搞清楚,我打算借这篇文章好好梳理一下。 前言 在许多讲LSTM的文章中,都会出现下面这个图。 Alt text 说实话,这个图确实很清晰明了(对于懂的人来说)。在很多文章中我都发现了这样的问题,有...

2019-03-17 22:10:57 608 3

原创 解决 THCudaCheck FAIL file=/pytorch/aten/src/THC/THCGeneral.cpp line=405 error=11 : invalid argument

如题,原因是显卡用的RTX 2080Ti,CUDA就要装10以上,这个时候pytorch不能直接用pip装,要这样: pip3 install https://download.pytorch.org/whl/cu100/torch-1.0.0-cp36-cp36m-linux_x86_64.wh...

2019-01-31 16:26:37 16079 3

原创 Ubuntu18.04 + RTX 2080 Ti 安装NVIDIA显卡驱动的一些坑

记录一下踩到的坑。 一般情况下,驱动装好了,可以用下面的命令来查看显卡状况: nvidia-smi 当成功弹出下面的内容的时候,说明驱动装成功了: 安装驱动的方法我这里就不写了,可以参考一下: https://blog.csdn.net/weixin_40859436/article/deta...

2019-01-30 17:17:59 9834 3

原创 python3 判断是否为中文,打印范围内字符

有的时候需要判断某个字符是不是中文(英文,日文……),但是不可能吧所有字符都列出来,看字符是不是在里面。这个时候可以根据unicode编码的范围来判断是哪个语言,比如,中文的范围是4e00~9fa5。其他字符的范围可以从这里面找一下:https://unicode-table.com/cn/blo...

2019-01-28 13:38:51 2823 0

原创 GAN——生成对抗网络详解

GAN的诞生 在讲GAN的内容之前想先讲一下GAN诞生的故事。GAN的创造者是Ian Goodfellow,有一天为了庆祝一个朋友Razvan Pascanu获得了博士学位,他和一些朋友在蒙特利尔一家酒吧嗨。他们开始讨论一个新的研究方向,通过数学的方法确定图片内容,大概意思是把图片都喂给机器,通过...

2019-01-27 15:23:52 396 0

原创 简单理解信息量、散度、交叉熵

信息论 顾名思义,信息论是研究信息的一门学科,不过在这篇文章里,只讨论一些简单的概念。 信息量 这里的信息量和“这句话信息量很大啊”的信息量有些像,但还是有区别的。 信息论 顾名思义,信息论是研究信息的一门学科,不过在这篇文章里,只讨论一些简单的概念。 信息量 这里的信息量和“这句话信息量很大啊”...

2019-01-05 12:47:52 326 0

原创 Unet学习笔记

最近在看Unet,记录一下。 论文地址 https://arxiv.org/pdf/1505.04597.pdf 网络结构 图上画的还是很清晰的,但是对于不了解Unet结构的人来说,可能还是有一些不清楚的地方。我这里结合我看的时候的疑问,来讲一下Unet的结构的一些问题。 可以看到,输入是57...

2018-12-18 23:22:35 8818 22

原创 使用mkldnn为cpu运行网络加速

最近要在用crnn,跑的pytorch模型,本来在gpu跑的好好的,但是后来由于各种原因,需要在cpu上跑,才发现cpu上跑的是真的慢,后来发现了mkldnn这个东西,这是intel开发的开源项目,就是针对cpu上运行神经网络做了一些并行优化。 用了以后,大概速度快了7,8倍吧,效果还是比较明显的...

2018-11-22 09:01:14 5303 22

原创 TextRank学习笔记

TextRank起源与PageRank TextRank的灵感来源于大名鼎鼎的PageRank算法,这是一个用作网页重要度排序的算法。 并且,这个算法也是基于图的,每个网页可以看作是一个图中的结点,如果网页A能够跳转到网页B,那么则有一条A->B的有向边。这样,我们就可以构造出一个有...

2018-11-04 10:38:41 4853 0

原创 随笔——关于贝叶斯定理

贝叶斯定理是一个很经典的定理,虽然公式很简单,套用起来也很方便,但是还是缺乏一个直观的sense, 似乎很有道理却说不出来,这是一件很难受的事情,今天打算好好聊一聊贝叶斯定理,看看是否可以建立一个直观的感觉。 其实,画图是一个很好理解数学公式的方法,如果各种公式都能变成一个简单的图像存在人的大脑里...

2018-09-23 17:53:40 613 0

原创 目标检测——细读YOLO V1

Yolo(You Only Look Once)是一个end-to-end的目标检测算法。作者在论文中提出,人类的视觉系统是快速和准确的, 人们瞥一眼图像,立即知道图像中的物体是什么,它们在哪里以及它们如何相互作用。而对于Rcnn系列的方法,都是需要先找到有可能有物体的框(anchor box),...

2018-09-08 14:11:13 419 0

原创 FasterRcnn中boundingbox regression的一些理解

在fasterrcnn中,做框的回归,有三个输入,anchor,预测的框,groundtruth的框。一个框的表示,使用中心点(x,y)(x,y)(x, y),和框的宽高(w,h)(w,h)(w,h)表示。 那么这个回归的loss怎么算呢?首先看下图: 其中: 绿框:ground tru...

2018-08-30 11:39:38 1646 8

原创 关于Faster-Rcnn中的AnchorBox的一些理解

最近在看faster-rcnn的源码,写一写笔记~ 之前看论文的时候,anchorbox这个东西,虽然大概意思是理解了,但是还是有很多细节没想明白,之前读代码的时候又有了更深的理解。 首先,faster-rcnn在计算anchorbox之前大概是下面这几步: 为了更方便理解,我列出了实际...

2018-04-14 17:53:59 14065 21

原创 图片转tfrecord格式的优化

前两天在用一个开源代码的时候,发现他把数据转tfrecord以后特别大,本来硬盘空间就有些紧张,这下更不够了。看了一下转完以后的大小,是原始数据的9、10倍,这就有些夸张了。之前用tfrecord的时候没有特别注意这个事情,这次看到了还是研究一下。 方案1: 这是原来代码里的写法,为了简便,就...

2018-04-14 13:37:30 2890 2

原创 如何生成FSNS数据集结构的tfrecord数据

想要用一下attention ocr,github如下: https://github.com/tensorflow/models/tree/master/research/attention_ocr 发现这里面并没有生成数据的样例代码,只能用fsns的格式,如果想要用自己的数据集要生成一个和...

2018-01-13 15:38:28 1223 0

原创 卷积神经网络的参数计算

前言 这篇文章会简单写一下卷积神经网络上参数的计算方法,然后计算各个常见神经网络的参数。一个是加强对网络结构的了解,另一方面对网络参数的量级有一个大概的认识,也可以当作备忘录,免得想知道的时候还要再算。 参数计算方法 全连接的参数计算就不说了,比较简单。 首先,简单说一下卷积网络的参数...

2018-01-08 22:39:12 41173 15

原创 CTC算法论文阅读笔记:Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurren

前言最近在看这个论文,本来想要写一个翻译,但是鉴于本人英语的渣水平,再加上论文本身一些说明,虽然能够看懂,但是很难翻译过来,所以还是写个阅读笔记好了。在这篇文章,我会跟着论文的思路大致说明论文的内容和自己的理解。CTC解决什么问题在许多的训练任务中,我们需要输入一个序列,这个序列有可能有噪声,并不...

2017-12-31 14:09:30 1441 3

原创 [kaggle系列 五] 通过mnist来研究神经网络的一些细节(3)

题目https://www.kaggle.com/c/digit-recognizer前言上一篇用了个简单的神经网络来解决mnist的问题,介绍了一下权重初始化的技巧,防止训练梯度到最后一层的时候变为nan,还使用了bn算法,取得了一些成效。这一章里,我会介绍一下训练中使用的更新梯度的优化算法,还...

2017-10-21 15:24:06 791 2

原创 [kaggle系列 四] 通过mnist来研究神经网络的一些细节(2)

题目https://www.kaggle.com/c/digit-recognizer前言上一篇写了一些基础的代码,用一个最简单的神经元来写了一个手写数字的识别。在这一篇里,首先扩展了神经网络的深度,并且处理了深度所带来的权重初始化的问题,另外,还尝试用了batch normalization算法...

2017-10-16 22:26:40 494 0

原创 [kaggle系列 四] 通过mnist来研究神经网络的一些细节(1)

题目https://www.kaggle.com/c/digit-recognizer前言前面玩泰坦尼克号花费了一些时间,想要把分数刷的高一些,但是没有成功,感觉再搞下去意义不大,毕竟只是拿来熟悉kaggle和一些机器学习算法的,目的已经达到了,没必要纠缠下去。所以就开新坑啦~ 其实我重点是想要...

2017-10-11 21:46:24 571 0

原创 [kaggle系列 三] 使用SVM判断是否能从泰坦尼克号生还

题目连接:https://www.kaggle.com/c/titanic前言和前几篇差不多,这次换成svm,实际上,对于svm的理解是有了,知道是怎么做的了,但具体公式如何推导,还是不会,但是,这不影响写代码,使用现成的库函数就可以搞定,有时候,这些工具大大简化了我们的学习成本,知道基本原理,然...

2017-09-20 22:40:08 810 0

原创 简单易懂的softmax交叉熵损失函数求导

来写一个softmax求导的推导过程,不仅可以给自己理清思路,还可以造福大众,岂不美哉~ softmax经常被添加在分类任务的神经网络中的输出层,神经网络的反向传播中关键的步骤就是求导,从这个过程也可以更深刻地理解反向传播的过程,还可以对梯度传播的问题有更多的思考。 softmax 函数 ...

2017-09-20 22:23:33 52597 69

原创 [kaggle系列 二] 使用决策树判断是否能从泰坦尼克号生还

题目连接:https://www.kaggle.com/c/titanic简析上一篇用了贝叶斯分类器,这次用决策树和随机森林试一试,不过最终的得分没有贝叶斯分类器高,好吧,说实话,感觉再用几个不同的机器学习方法应该结果也差不多,现在主要是试水,先搞懂基础的算法,然后再通过数据的处理与分析去优化结果...

2017-09-16 15:56:25 753 0

原创 [kaggle系列 一] 使用贝叶斯分类器判断是否能从泰坦尼克号生还

前两天有个朋友给我推荐了kaggle这个网站,感觉对于我这种想要学习却不太清楚如何实践的新手来说是个很有效的学习方式。 之前学的东西都比较乱,这边学一点,那边学一点,这次要一步一步的,从简到难好好搞一搞~ 做这个的目的呢,主要是学习机器学习人工智能这方面的东西,通过具体的问题,把不同的算法放上...

2017-09-09 18:00:20 1189 2

原创 kaggle 邮箱验证的时候提示 You did not enter the correct captcha response. Please try again

听一个朋友说的kaggle这个东西,打算借此好好学习一下,注册的时候邮箱验证总显示 You did not enter the correct captcha response. Please try again 没有输入正确的验证码是什么鬼,老子根本没输验证码好么。。。 后来发...

2017-09-07 22:12:22 36128 15

原创 mac下安装安装包,遇到“安装器遇到了一个错误,导致安装失败”

今天安装jdk的时候遇到的,之前安装node的时候也不行,我还以为是包的问题,用另外一种方法安上了,但是jdk没找到别的,研究了半天……最后发现,我的/private/tmp目录没了……有可能是什么时候被误删的吧?然后重新mkdir一个就能装上了……

2017-06-03 15:38:23 32578 4

原创 如何使用d3js画分帧画一棵树

最近用d3js写了一个把树可视化的工具,但是遇到一个问题,当树的结点非常多的时候,加载整棵树会卡一段时间,体验不是很好,所以想是不是能用分帧加载的方法,不要一次加载整棵树,而是隔一段时间加载一部分。 这是老套路了,本来觉得应该挺简单的,但是网上查了半天也找到符合需求的文章,又去查API,发现也没...

2017-05-06 14:11:42 1342 0

原创 关于Tensorflow计算图与Tensor的理解

关于Tensorflow计算模型tensorflow的编程和我以往接触的编程方式有很大差异。以前的编程,无论是编译类型的语言还是脚本语言,都是一步一步的,变量计算后,就会得到结果,比如c=a+b,当执行完语句后,就会得到c的值。但tensorflow不是,它首先要通过编程,构建一个计算图出来,然后...

2017-04-23 14:51:20 9687 1

原创 Makefile学习笔记

前言由于过去一直在做前端,虽然早就知道有makefile这种东西,但是一直都没去学。因为有ide啊,为什么要手动去搞呢。。。不过现在有用了,还是要看一看。 之前以为makefile就是用来做编译连接之类的东西的,但实际并不是这样,造成这种错误认知的原因一方面是看过的makefile都是做这个的,...

2017-04-09 16:09:30 449 0

原创 AlphaGo是如何实现的

前言最近看了AlphaGo的论文:Mastering then Game of Go with Deep Nerual Networks and Tree Search。惊异于这些人的创造力和神经网络的强大,能够把围棋这种游戏做到这种地步。写一写论文里的方法和自己的思考吧,这篇文章基本都是论文中...

2017-04-03 22:08:04 6814 0

提示
确定要删除当前文章?
取消 删除