2018年03月_青盏

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 Keras 数据增强 ImageDataGenerator 多输入多输出

import os os.environ["CUDA_DEVICE_ORDER"]="PCI_BUS_ID" os.environ["CUDA_VISIBLE_DEVICES"]=""import sysimport gcimport timeimport cv2import randomimport numpy as npimport pandas as pdimport

2018-03-28 15:13:39 6667

原创 Focal Loss for Dense Object Detection 概要

主要内容：Loss函数文章提出一种loss函数，针对在one-stage模型中提取区域的foreground和background类别不平衡问题（正负样本比例接近1000）。其中分析对于two-stage R-CNN类型模型主要通过cascade和heuristics方法解决。在proposal stage使用算法减少候选区域的同时除去大量background Samples，而在clas

2018-03-26 20:29:48 327

转载很好理解流形学习的文章-浅谈流形学习(Manifold Learning)

来源Machine Learning 虽然名字里带了 Learning 一个词，让人乍一看觉得和 Intelligence 相比不过是换了个说法而已，然而事实上这里的 Learning 的意义要朴素得多。我们来看一看 Machine Learning 的典型的流程就知道了，其实有时候觉得和应用数学或者更通俗的数学建模有些类似，通常我们会有需要分析或者处理的数据，根据一些经验和一些假

2018-03-25 19:39:15 16588 9

转载 Adversarial Examples 对抗样本

定义深度模型具有良好的泛化能力同时，也具有极高脆弱性。以分类为例：只需要通过故意添加细微的干扰所形成的输入样本（对抗样本），模型以高置信度给出了一个错误的输出。当然这问题不仅出现在深度模型中，在其他机器学习模型也存在。“对抗样本”是安全方面非常好的一个议题，因为它代表了AI安全领域里的一种具体的问题。如上样本x的label为熊猫，在对x添加部分干扰后，在人眼中仍然分为熊猫，但对深度模型...

2018-03-24 16:44:04 13638 1

转载 tensorflow 基本运算API

来源留作存档官网接口1、tensorflow的基本运作为了快速的熟悉TensorFlow编程，下面从一段简单的代码开始：import tensorflow as tf #定义‘符号’变量，也称为占位符 a = tf.placeholder("float") b = tf.placeholder("float") y = tf.mul(a, b) #构造一个op节点 s...

2018-03-20 12:53:47 1209

原创深度模型优化性能调参

注意调参看验证集。trainset loss通常能够一直降低，但validation set loss在经过一段降低期后会开始逐渐上升，此时模型开始在训练集上过拟合。着重关注val loss变化，val acc可能会突变，但loss衡量的整体目标。优先调参学习率。通过对模型预测结果，可以判断模型的学习程度，如果softmax输出在0或1边缘说明还不错，如果在0.5边缘说明模型有待提高。调参

2018-03-17 22:37:07 23148

原创优化循环神经网络长期依赖问题 LSTM GRU 截断梯度渗透单元

长期依赖问题长期依赖问题在于经过许多阶段梯度传播后，梯度倾向于消失（多数）或者爆炸（少数）。循环神经网络涉及到多次相同函数的组合，这些组合导致极短的非线性。 ESN回声状态网络：。。。跳跃连接：从过去某个层输出，直接链接到未来层。引入d延时循环链接保证单元能够被前d个单元影响，减轻梯度爆炸和消失问题。导数的指数减小速度与T/d有关而不是T有关。如ResNet：渗透单元：设置自连接单元从而获得导

2018-03-15 22:27:09 5465

原创 Focal loss keras实现 tf.equal tf.ones_like tf.zeros_like tf.where

Focal loss原理他人推理过程 Focal Loss基本思想就是对于容易区分的（概率大）梯度更新小（1-pt接近0），对于不容易区分的（概率小）梯度更新大。其中pt代表每个类别概率（二分类也可以理解为多分类问题。只不过二分类预测的都是为1概率，而多分类预测属于所有类别概率，此处pt在二分类中理解为属于1或0的概率），alpha控制样本不平衡问题，gamma控制难分样本问题。代码兼

2018-03-14 15:51:28 4614 2

原创 python 强制刷新缓冲区 sys.stdout.flush() tqdm加载条两个

缓冲区的刷新方式： 1.flush()刷新缓存区 2.缓冲区满时，自动刷新 3.文件关闭或者是程序结束自动刷新。当我们打印一些字符时，并不是调用print函数后就立即打印的。一般会先将字符送到缓冲区，然后再打印。这就存在一个问题，如果你想等时间间隔的打印一些字符，但由于缓冲区没满，不会打印。就需要采取一些手段。如每次打印后强行刷新缓冲区。for i in range(n):

2018-03-12 20:06:49 10674 1

转载文本挖掘流程示例

import numpy as npimport pandas as pdfrom contextlib import contextmanagerfrom sklearn.feature_extraction.text import TfidfVectorizerfrom scipy.sparse import hstackimport timeimport reimport ...

2018-03-12 14:07:56 1868 1

原创池化 MaxPooling AveragePooling MeanPooling GlobalMaxPooling GlobalAveragePooling 区别

MaxPooling AveragePooling目的： 1、整合特征 2、减少参数 2、平移不变性如上图使用的max pooling，当底层特征向右偏移一位时，由于max pooling 只关注较大值，可以看到上层特征变化不大。上图中三个detector分别探测不同偏移方向的数字5，当探测到对应偏移的数字5时，相应的detector就会激活。而在detector上层的p...

2018-03-11 22:01:00 18413

原创深度学习模型构想

用作记录一些模型的设计构思。多任务学习，该模型底层存在三个任务x1，x2，x3。每个任务意义不同，甚至维度，分布都不同。但顶层输出变量y具有相同意义，上层结构是共享的。由于上层共享参数，最终导致低层结构学习的是将每个特定任务转化处通用的特征供上层使用。举例：语音识别，语种的存在导致不同的发音，但最终学得的是相同语义的特征表示。多任务学习，在某些类似任务中，某些低层概念是...

2018-03-10 15:50:57 1316

原创 PHP 注意点坑

and && or ||优先级问题：and or的优先级低于&& || ，且低于=。因此$b1 = $bA and $bB先运算的是$b1 = $bA。$bA = true;$bB = false;$b1 = $bA and $bB;$b2 = $bA && $bB;var_dump($b1); // $b1 = truevar...

2018-03-09 13:44:10 249

基础理解不同于卷积网络专门处理网格化数据，循环神经网络主要处理序列数据。比如一个句子：‘I went to Nepal in 2009’。每个word可以为序列的一个x。由于序列的长短不同，如果对每个x都单独设置一个参数，那么当出现更长的序列时模型就无法处理，没有对应的权重参数。而且对于序列‘I went to Nepal in 2009.’和’In 2009, I went to Nepal...

2018-03-07 20:56:10 16422 9

原创 python 字符串string 开头r b u f 含义 str bytes 转换 format

字符串开头r b u各含义：b'input\n' # bytes字节符，打印以b开头。输出：b'input\n'r'input\n' # 非转义原生字符，经处理'\n'变成了'\\'和'n'。也就是\n表示的是两个字符，而不是换行。输出：'input\\n'u'input\n' # unicode编码字符，python3默认字符串编码方式。输出：'input\n...

2018-03-05 17:06:28 55262 1

原创 Keras 利用sklearn的ROC-AUC建立评价函数

# 利用sklearn自建评价函数from sklearn.model_selection import train_test_splitfrom sklearn.metrics import roc_auc_scorefrom keras.callbacks import Callbackclass RocAucEvaluation(Callback): def __init__(s

2018-03-04 17:03:08 8437 2

原创 Keras 文本预处理 text sequence

预处理句子分割、ohe-hot：from keras.preprocessing import textfrom keras.preprocessing.text import Tokenizertext1='some thing to eat'text2='some some thing to drink'text3='thing to eat food'texts=[tex...

2018-03-04 15:22:23 6488 1

原创词集模型 Set Of Words（SOW）和词袋模型 Bag Of Words（BOW）

SOW和BOW都是将所有文本中单词形成一个字典，然后根据字典来统计单词出现频数。不同的是： SOW是单个文本中单词出现在字典中，就将其置为1，而不管出现多少次。 BOW是单个文本中单词出现在字典中，就将其向量值加1，出现多少次就加多少次。注意SOW和BOW都是基于词之间保持独立性，没有关联为前提。这使得其统计方便，但同时也丢失了文本间词之间关系的信息。现有Word Embedding在将单词

2018-03-04 14:25:24 2032

原创一般文本挖掘流程

获取数据集1、开放数据集（NLTK提供了很多数据集） 2、网页抓取 3、登录，搜索日志数据预处理1、除去html等无用标签（lxml、html5lib），拼写纠错（pyenchant），大小写转换（正则匹配），除去标点符号（正则匹配），处理编码，除去长度过小word，除去停用词（NLTK Stopwords，停用词就是常用却没有具体意义的word，如to）等 2、分句（正则匹配、NLTK se

2018-03-04 13:29:13 1594

原创 NLP Lemmatisation（词性还原）和 Stemming（词干提取） NLTK pos_tag word_tokenize

词形还原（lemmatization），是把一个词汇还原为一般形式（能表达完整语义），方法较为复杂；而词干提取（stemming）是抽取词的词干或词根形式（不一定能够表达完整语义），方法较为简单。 Stemming（词干提取）：基于语言的规则。如英语中名词变复数形式规则。由于基于规则，可能出现规则外的情况。# Porter Stemmer基于Porter词干提取算法from nlt...

2018-03-03 14:57:57 24954

原创数学之美：信息的度量和作用 KL散度自信息熵相对熵 KL divergence entropy

定义自信息：香农认为，信息可以消除我们对于事物认识上的不确定性，越不可能发生的事情一旦发生就可以消除较大的不确定性，所以应当含有较多的信息。由此，香农认为，应当用事件的发生概率确定该事件所含的信息量，概率越小的事件所含的信息量越大，而必然事件的信息量最小，指定为0。熵：想要知道一个分布的信息量，就要先确定一个描述信息量的量纲。在信息论学科中，提出了熵的概念，记作 H。一个概率

2018-03-01 13:40:51 1252

视频、图像原理设配选择

介绍视频、图像原理及其如何进行设配选择。图象与视频是两个既有联系又有区别的概念：静止的图片称为图象（Image），运动的图象称为视频（Video）。图象的输入要靠扫描仪、数字照相机或摄象机等；而视频的输入只能是摄象机、录象机、影碟机以及电视接收机等可以输出连续图象信号的设备。本文将针对视频图像这一领域作一个概括的介绍，希望对大家进一步了解视频技术方面的知识有所帮助。下面先对一些视频技术名词作一下简单解释。

2018-04-12

基于图像处理和K近邻的车牌号识别 opencv python

基于图像处理和K近邻的车牌号识别源码首先对车牌字符进行图像处理，提取，然后使用K近邻算法预测。 opencv python

2018-01-16

GetDict.exe 2.6的升级版本MdxExport

2017-04-09

Xgboost编译版，使用Python2.7

2017-03-20

Qt多线程Thread示范，失效百度私链穷举

2017-02-20

java 原型模式

2017-01-05

java 建造者模式代码

2017-01-03

c++ java 抽象工厂模式代码

c++ java 抽象工厂模式

2016-12-31

java c++ 工厂模式源代码

2016-12-31

Qt5 模拟登录百度

练习QT5时写的模拟登录百度的简陋代码。

2016-12-28

Qt5的类继承图

通过类继承图一眼明了Qt5的类继承。

2016-12-18

tornado 简单项目结构

2016-08-11

STM32F4-Discovery_FW_V1.1.0 固件库及实例

2016-04-09

stsw-link009 for window10.zip

This USB driver (STSW-LINK009) is for ST-LINK/V2 and ST-LINK/V2-1 boards and derivatives (STM32 discovery boards, STM32 evaluation boards, STM32 Nucleo boards).

2016-02-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

心之所向

原创 Keras 数据增强 ImageDataGenerator 多输入多输出

原创 Focal Loss for Dense Object Detection 概要

转载很好理解流形学习的文章-浅谈流形学习(Manifold Learning)

转载 Adversarial Examples 对抗样本

转载 tensorflow 基本运算API

原创深度模型优化性能调参

原创优化循环神经网络长期依赖问题 LSTM GRU 截断梯度渗透单元

原创 Focal loss keras实现 tf.equal tf.ones_like tf.zeros_like tf.where

原创 python 强制刷新缓冲区 sys.stdout.flush() tqdm加载条两个

转载文本挖掘流程示例

原创池化 MaxPooling AveragePooling MeanPooling GlobalMaxPooling GlobalAveragePooling 区别

原创深度学习模型构想

原创 PHP 注意点坑

原创 RNN 循环 NN 神经网络基本结构类型

原创 python 字符串string 开头r b u f 含义 str bytes 转换 format

原创 Keras 利用sklearn的ROC-AUC建立评价函数

原创 Keras 文本预处理 text sequence

原创词集模型 Set Of Words（SOW）和词袋模型 Bag Of Words（BOW）

原创一般文本挖掘流程

原创 NLP Lemmatisation（词性还原）和 Stemming（词干提取） NLTK pos_tag word_tokenize

原创数学之美：信息的度量和作用 KL散度自信息熵相对熵 KL divergence entropy

视频、图像原理设配选择

基于图像处理和K近邻的车牌号识别 opencv python

GetDict.exe 2.6的升级版本MdxExport

Xgboost编译版，使用Python2.7

Qt多线程Thread示范，失效百度私链穷举

java 原型模式

java 建造者模式代码

c++ java 抽象工厂模式代码

java c++ 工厂模式源代码

Qt5 模拟登录百度

Qt5的类继承图

tornado 简单项目结构

STM32F4-Discovery_FW_V1.1.0 固件库及实例

stsw-link009 for window10.zip

空空如也

视频、图像原理 设配选择

基于图像处理和K近邻的车牌号识别 opencv python

GetDict.exe 2.6的升级版本MdxExport

Xgboost编译版，使用Python2.7

Qt多线程Thread示范，失效百度私链穷举

java 原型模式

java 建造者模式代码

c++ java 抽象工厂模式代码

java c++ 工厂模式源代码

Qt5 模拟登录百度

Qt5的类继承图

tornado 简单项目结构

STM32F4-Discovery_FW_V1.1.0 固件库及实例

stsw-link009 for window10.zip

空空如也

视频、图像原理设配选择