[置顶] 创意视觉应用︱基于深度学习的CVaaS计算机视觉即服务案例(Computer Vision as a Service)

技术与技法日进千里,快速迭代过程中,真正能够留下的是应用场景的重构与对新商业范式的思考。 CVaaS 计算机视觉即服务的理念介绍 观点来源于:极视角科技联合创始人 罗韵 CVaaS 就是 Computer Vision as a Service, 我们把 CV 的部分标准化成为了一种服务,而每一个行业可以在这里找到自己行业需要的和图像处理、视频处理、计算机视觉相关的算法服务,然后他们可以整合这...
阅读(1101) 评论(1)

[置顶] R+python︱Facebook大规模时序预测『真』神器——Prophet(遍地代码图)

经统专业看到预测的packages都是很眼馋的。除了之前的forecast包,现在这个prophet功能也很强大。本packages是由机器之心报道之后,抽空在周末试玩几小时。一些基本介绍可见机器之心的《业界 | Facebook开源大规模预测工具Prophet:支持Python和R》 并不喜欢理论分析,能直接上案例的,一般不码字,力求简单粗暴!! 官网网址:https://fac...
阅读(1860) 评论(2)

[置顶] cips2016+学习笔记︱简述常见的语言表示模型(词嵌入、句表示、篇章表示)

在cips2016出来之前,笔者也总结过种类繁多,类似词向量的内容,自然语言处理︱简述四大类文本分析中的“词向量”(文本词特征提取)事实证明,笔者当时所写的基本跟CIPS2016一章中总结的类似,当然由于入门较晚没有CIPS2016里面说法权威,于是把CIPS2016中的内容,做一个摘录。 CIPS2016 中文信息处理报告《第五章 语言表示与深度学习研究进展、现状及趋势》第三节 技术方法和研究现状...
阅读(2891) 评论(4)

[置顶] 迁移学习︱艺术风格转化:Artistic style-transfer+ubuntu14.0+caffe(only CPU)

说起来这门技术大多是秀的成分高于实际,但是呢,其也可以作为图像增强的工具,看到一些比赛拿他作训练集扩充,还是一个比较好的思路。如何在caffe上面实现简单的风格转化呢?好像网上的博文都没有说清楚,而且笔者也没有GPU机器,于是乎,走上了漫漫的研究逼死自己之路...作者实践机器配置:服务器:ubuntu16.04(8 core)+caffe+only CPU一、图像风格迁移:image style...
阅读(3643) 评论(3)

[置顶] R︱foreach+doParallel并行+联用迭代器优化内存+并行机器学习算法

接着之前写的并行算法parallel包,parallel相比foreach来说,相当于是foreach的进阶版,好多东西封装了。而foreach包更为基础,而且可自定义的内容很多,而且实用性比较强,可以简单的用,也可以用得很复杂。笔者将自己的学习笔记记录一下。R︱并行计算以及提高运算效率的方式(parallel包、clusterExport函数、SupR包简介)——————————————————...
阅读(1297) 评论(0)

python︱sklearn一些小技巧的记录(pipeline...)

sklearn里面包含内容太多,所以一些实用小技巧还是挺好用的。1、LabelEncoder简单来说 LabelEncoder 是对不连续的数字或者文本进行编号from sklearn.preprocessing import LabelEncoder le = LabelEncoder() le.fit([1,5,67,100]) le.transform([1,1,100,67,5])输出: a...
阅读(94) 评论(0)

结构化数据转换方式之一:box-cox转换

之前在《笔记︱信用风险模型(申请评分、行为评分)与数据准备(违约期限、WOE转化)》中提到过WOE转换,WOE转换=分箱法=Logit值,与等深、等宽不同是根据被解释变量来重新定义一个WOE值 **笔者将其定位于对自变量的数据转换。 现在来看看对于因变量的数据转换:BOX-COX转换。**内容主要参考交大的课件:BoxCox-变换方法及其实现运用.pptx优势: 线性回归模型满足线性性、独立性、方...
阅读(127) 评论(0)

ChainerCV︱堪比Opencv--深度学习工具库(Faster R-CNN、SSD 和 SegNet)

Preferred Networks 通过其研究博客发布了深度学习计算机视觉实用库 ChainerCV,它基于 Chainer,能够简化计算机视觉的训练和应用过程,并含有用于计算机视觉研究的必备工具集。 ChainerCV 提供了目标检测和语义分割模型(Faster R-CNN、SSD 和 SegNet)的实现。 ChainerCV 具有大量的已训练权重,可在运行时自动从网络上下载...
阅读(134) 评论(0)

python︱处理与使用json格式的数据(json/UltraJSON/Demjson)

JSON(JavaScript Object Notation)编码格式的数据。 1、变量解码、编码为Json格式 2、文件读出、导入json格式 . 1、变量解码、编码为Json格式import jsondata = { 'name' : 'ACME', 'shares' : 100, 'price' : 542.23 }json_str = json.dumps(dat...
阅读(170) 评论(0)

python︱四款中文分词模块尝试:jieba、THULAC、SnowNLP、pynlpir

THULAC四款python中中文分词的尝试。尝试的有:jieba、SnowNLP(MIT)、pynlpir(大数据搜索挖掘实验室(北京市海量语言信息处理与云计算应用工程技术研究中心))、thulac(清华大学自然语言处理与社会人文计算实验室) 四款都有分词功能,本博客只介绍作者比较感兴趣、每个模块的内容。jieba在这不做介绍,可见博客: python+gensim︱jieba分词、词袋doc...
阅读(415) 评论(1)

无监督︱异常、离群点检测 一分类——OneClassSVM

OneClassSVM两个功能:异常值检测、解决极度不平衡数据因为之前一直在做非平衡样本分类的问题,其中如果有一类比例严重失调,就可以直接用这个方式来做:OneClassSVM;OneClassSVM还有一个功能就是异常值检测。其他我的相关博客: 1、机器学习︱非平衡数据处理方式与评估 2、RFM模型+SOM聚类︱离群值筛选问题 3、R语言︱异常值检验、离群点分析、异常值处理台湾大学林智仁所...
阅读(496) 评论(0)

SELU︱在keras、tensorflow中使用SELU激活函数

arXiv 上公开的一篇 NIPS 投稿论文《Self-Normalizing Neural Networks》引起了圈内极大的关注,它提出了缩放指数型线性单元(SELU)而引进了自归一化属性,该单元主要使用一个函数 g 映射前后两层神经网络的均值和方差以达到归一化的效果。 Shao-Hua Sun 在 Github 上放出了 SELU 与 Relu、Leaky Relu 的对比,机器之心对比较结果...
阅读(429) 评论(0)

机器学习︱非平衡数据处理方式与评估

解决这一问题的基本思路是让正负样本在训练过程中拥有相同的话语权,比如利用采样与加权等方法。为了方便起见,我们把数据集中样本较多的那一类称为“大众类”,样本较少的那一类称为“小众类”。 解决方式分为: .一、相关方法总结1、采样采样方法是通过对训练集进行处理使其从不平衡的数据集变成平衡的数据集,在大部分情况下会对最终的结果带来提升。采样分为上采样(Oversampling,过采样)和下采样(U...
阅读(355) 评论(0)

R︱Yandex的梯度提升CatBoost 算法(官方述:超越XGBoost/lightGBM/h2o)

俄罗斯搜索巨头 Yandex 昨日宣布开源 CatBoost ,这是一种支持类别特征,基于梯度提升决策树的机器学习方法。 CatBoost 是由 Yandex 的研究人员和工程师开发的,是 MatrixNet 算法的继承者,在公司内部广泛使用,用于排列任务、预测和提出建议。Yandex 称其是通用的,可应用于广泛的领域和各种各样的问题。笔者相关文章:R+工业级GBDT︱微软开源 的LightGB...
阅读(856) 评论(0)

keras系列︱keras是如何指定显卡且限制显存用量

keras在使用GPU的时候有个特点,就是默认全部占满显存。 若单核GPU也无所谓,若是服务器GPU较多,性能较好,全部占满就太浪费了。 于是乎有以下三种情况: - 1、指定GPU - 2、使用固定显存的GPU - 3、指定GPU + 固定显存一、固定显存的GPU本节来源于:深度学习theano/tensorflow多显卡多人使用问题集(参见:Limit the resource usag...
阅读(870) 评论(0)

python + sklearn ︱分类效果评估——acc、recall、F1、ROC、回归、距离

之前提到过聚类之后,聚类质量的评价: 聚类︱python实现 六大 分群质量评估指标(兰德系数、互信息、轮廓系数) R语言相关分类效果评估: R语言︱分类器的性能表现评价(混淆矩阵,准确率,召回率,F1,mAP、ROC曲线).一、acc、recall、F1、混淆矩阵、分类综合报告1、准确率第一种方式:accuracy_score# 准确率 import numpy as np from skl...
阅读(1775) 评论(2)

主题模型︱几款新主题模型——SentenceLDA、CopulaLDA、TWE简析与实现

百度最近开源了一个新的关于主题模型的项目。文档主题推断工具、语义匹配计算工具以及基于工业级语料训练的三种主题模型:Latent Dirichlet Allocation(LDA)、SentenceLDA 和Topical Word Embedding(TWE)。 . 一、Familia简介帮Familia,打个小广告~ Familia的github 主题模型在工业界的应用范式可以抽象...
阅读(1595) 评论(2)

Recording︱有价值的各类AI、机器学习比赛心得、经验抄录

今年kaggle华人优胜团队很多,所以经验、心得不少,都是干货慢慢收集。 .一、【干货】Kaggle 数据挖掘比赛经验分享1、了解数据分布◆ 分析特征变量的分布 ◇ 特征变量为连续值:如果为长尾分布并且考虑使用线性模型,可以对变量进行幂变换或者对数变换。 ◇ 特征变量为离散值:观察每个离散值的频率分布,对于频次较低的特征,可以考虑统一编码为“其他”类别。 ◆ 分析目标变量的分布 ◇ 目标变...
阅读(480) 评论(1)

keras系列︱seq2seq系列相关实现与案例(feedback、peek、attention类型)

之前在看《Semi-supervised Sequence Learning》这篇文章的时候对seq2seq半监督的方式做文本分类的方式产生了一定兴趣,于是开始简单研究了seq2seq。先来简单说一下这篇paper的内容: 创立的新形式Sequence AutoEncoder LSTM(SA-LSTM),Pre-trained RNNs are more stable, generalize be...
阅读(2513) 评论(2)

DBSCAN聚类︱scikit-learn中一种基于密度的聚类方式

一、DBSCAN聚类概述基于密度的方法的特点是不依赖于距离,而是依赖于密度,从而克服基于距离的算法只能发现“球形”聚簇的缺点。 DBSCAN的核心思想是从某个核心点出发,不断向密度可达的区域扩张,从而得到一个包含核心点和边界点的最大化区域,区域中任意两点密度相连。1、伪代码 算法: DBSCAN 输入: E — 半径 MinPts — 给定点在 E 领域内成为核心对象的...
阅读(1265) 评论(0)
250条 共17页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:847382次
    • 积分:9934
    • 等级:
    • 排名:第1816名
    • 原创:192篇
    • 转载:57篇
    • 译文:1篇
    • 评论:238条
    作者简介
      技术与技法日进千里,快速迭代过程中,真正能够留下的是应用场景的重构与对新商业范式的思考。 ——微信公众号:素质云笔记
    博客专栏
    最新评论