机器学习
文章平均质量分 97
鱼香土豆丝
土豆丝很好吃
展开
-
软件工程化的一些思考
目录背景介绍为什么要做工程化一些需要工程化的点一般软件依赖软件的各种部署与配置线程池大小以及超时的配置软件启动脚本的自动化机器学习相关显存的控制多节点的启动tenosrrt 量化与加速总结背景介绍之前一直在做项目的工程化,导致很久没有写博客了,就在上周已经顺利的发版了,涉及的项目有一个一般的分布式项目,还有一个机器学习集成平台,今天就总结一下工程化中的一些经验。为什么要做工程化一般的开发流...原创 2020-05-04 11:25:32 · 929 阅读 · 0 评论 -
REAL-WORD MACHINE LEANING(翻译本--第一部分)
机器学习工作流程本书的第一部分介绍了机器学的基本流程,第一部分中的每一章节都是工作流程中的一部分:第一章介绍了机器学习主要的用途,以及为什么要阅读本书。第二章本章中您将深入了解ML领域中数据处理步骤。第三章本章中您将学习一些简单的机器学习模型,并了解他们的通用实现过程。第四章本章中您将深入了解如何验证以及如何优化机器学习模型。第五章本章重点讲解机器学习流程中的特征工程。从数...翻译 2018-05-15 09:46:04 · 282 阅读 · 0 评论 -
REAL-WORD MACHINE LEANING(翻译本--第一章 什么是机器学习)
本章内容概要:机器学习基础相比传统方法机器学习的优势机器学习流程概览模型性能优化方法综述翻译 2018-05-15 09:51:26 · 669 阅读 · 0 评论 -
tensorRt加速tensorflow模型推理(inception V3为例)
摘要在一个人工智能大爆发的时代,一个企业不来点人工智能都不好意思说自己是科技企业。随着各公司在各自领域数据量的积累,以及深度学习的强拟合特点,各个公司都会训练出属于自己的模型,那么问题就来了,你有模型,我也有模型,那还比什么?对,就是速度,谁的速度快,谁就厉害。引言tensorflow作为谷歌开源的深度学习神器,被学界以及业界广泛的推广,人们往往在模型迭代指定次数后,保存一次checkpoi...原创 2018-12-08 16:03:30 · 7770 阅读 · 17 评论 -
深度学习在图像上的一些应用
背景马上就上班快半年了,毕业前一直在和工业中的数据打交道,工作中却接触的都是图片,之前还有一点不太适应,不过本着数据是流动的基本思想,在图片应用领域也能快速入门,并给公司做出了一定的贡献。如果介绍的有什么不对的地方请多指正,毕竟学习应用不过几个月。深度学习什么是深度学习?在说深度学习之前,有必要说一下浅度学习,也就是人工神经网络,一般的神经网络有输入层,隐含层,以及输出层构成。而深度网络简...原创 2018-12-22 19:52:37 · 4101 阅读 · 0 评论 -
使用nginx和fastcgi做图片识别服务器
背景使用的特定的设备进行深度学习模型的推理,该机器仅仅提供了C++封装好的API进行模型的加载启动与推理,模型的训练依然是使用caffe,模型需要转化成该设备支持的格式,模型的转化这里就不在介绍。为了把模型的推理做成一种服务,只能上手C++,搭建HTTP服务,使得用户通过http服务post一张图片,服务器启动模型推理,实现模型的预测,并把结果返回给客户端。整体框架服务短的服务内容就是对接...原创 2019-03-03 16:06:22 · 290 阅读 · 0 评论 -
debian 9-GeForce GTX 1060-nvidia-docker 安装深度学习环境
之前训练模型一直用的是师兄装好的工作站。这不用喜人的价格收购了一台工作站,debian系统,配备了1张1060卡,16GB内存,4核i5。虽然有点不上档次,但是也比CPU跑的快点,用来做尝试没有问题了。开始环境安装吧!环境安装介绍安装之前去官网上查一下需要什么版本的cuda和cudnn显卡驱动安装去官网下载对应的驱动程序 https://www.nvidia.cn/Download/in...原创 2019-03-10 15:32:39 · 884 阅读 · 0 评论 -
实现一个简单的标注系统(js-python-mysql)
想要训练一个好用的机器学习模型该怎么办?标注数据去吧是呀,数据不行,模型怎么能行?可是面对成千上万的数据只能看模型而叹气了。有钱一起花,有数据当然一起标了,赶紧做一个简单的数据标注系统,发动组里的人一起标数据吧!基本构造还是传统的构造方法,有显示,有控制,还有数据库前端页面用于展现你要标注的数据,提交标注的结果(是,否,疑惑)的按钮,标注规则后端控制处理前端的标注结果并让前...原创 2019-03-11 19:32:15 · 3193 阅读 · 3 评论 -
【基础不牢,地动山摇】什么是统计学习
最近阅读了李航教授的统计学习,因此简单做个笔记,全当是对自己知识体系的差漏补缺。什么是统计学习?统计学习是计算机利用模型,对数据进行分析和预测的学科。统计学习有监督学习,半监督学习,非监督学习,还有强化学习。统计学习三要素是什么?模型策略算法学习方法统计学习有一个大的前提,就是数据独立同分布,楼主之前主要做迁移学习方面。考虑的问题大都是训练集和测试集不服从独立同分布假设。这里简...原创 2019-07-15 23:16:28 · 259 阅读 · 0 评论 -
【基础不牢,地动山摇】最小二乘法
什么是最小二乘法?第一次听到最小二乘法是在读书期间,主要是用来应付期末考试。深入了解它是在拟合曲线的过程中,有的论文对最小二乘法进行改进,增加了很多的正则项,以提高拟合度。总的来说,最小二乘法就是最一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。实现函数的拟合。比如下图:可以通过最小二乘法计算出函数的系数,得到a,b实现函数y=a+bxy=a+bxy=a+bx对这些点的误...原创 2019-07-17 08:25:46 · 222 阅读 · 0 评论 -
【基础不牢,地动山摇】朴素贝叶斯
这是我见过最NB的算法!因为它叫朴素贝叶斯(Naive Bayes,NB).原创 2019-07-29 22:43:35 · 162 阅读 · 0 评论 -
【基础不牢,地动山摇】感知机学习算法
什么是感知机?感知机算法是一个二分类算法。可以把给定的数据分为正类和负类二类。给定一个数据集:T={(x1,y1),(x2,y2),...,(xn,yn)}T=\{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\}T={(x1,y1),(x2,y2),...,(xn,yn)}整体的模型为:f(x)=sign(wx+b)f(x)=sign(w x+b)...原创 2019-07-17 23:24:56 · 201 阅读 · 0 评论 -
【基础不牢,地动山摇】K-D树
为什么在这里介绍最为基础的数据结构“树”呢?因为在最近邻算法中树有很重要的作用。首先回顾一下二叉树:二叉树二叉树是每个结点最多有两个子树的树结构。通常子树被称作“左子树”和“右子树”。二叉树常被用于实现二叉查找树和二叉堆。一张图快速理解二叉树:二叉树的搜索和构造就不再这里介绍了,大家可以参考这篇文章。linkK-D树为什么在上一节介绍二叉树?因为K-D树是每个节点都为k维点的二叉树。...原创 2019-07-22 23:03:08 · 234 阅读 · 0 评论 -
【基础不牢,地动山摇】K近邻算法--KNN
什么是K近邻算法?K近邻是最为基础的分类和回归算法!他的基本原则就是:对给定的训练实例点和输入实例点,首先确定输入实例点的kkk个最近邻训练实例点,然后利用这kkk个训练实例点的类的多数来预测输入实例点的类。简单的说就是近朱者赤,近墨者黑。该点周围的K个点绝大部分是红色的,那么它是红色的概率也大。如果绝大部分是黑色的,那么它也极有可能是黑色的!KKK近邻三要素kkk近邻法三要素有:距...原创 2019-07-28 14:30:59 · 152 阅读 · 0 评论 -
python 简单的实现NRSS 无参考图片质量检测
NRSS 算法流程实现过程中的说明在实现过程中发现如果步长设置的小,算法运行的特别慢,达不到性能要求啊,于是用等分图片试了试。直接参考程序吧。code#encoding=utf-8import cv2import numpy as npfrom skimage.measure import compare_ssimdef gauseBlur(img): img_...原创 2019-08-11 17:23:56 · 2704 阅读 · 1 评论 -
REAL-WORD MACHINE LEANING(翻译本--关于本书)
关于本书《现实生活中的机器学习》(Real-World Machine Leaning)是一本为想要将机器学习技术(Machine Leaning, ML)应用于现实生活中的人们而写的一本书。该书描述了ML领域主流的算法与工具。该书的关键在于实操,而非从头开始搭建模型。搭建和使用ML的每一个流程,书中都用由简到繁的例子进行说明。学习路径本书的第一部分“机器学习的工作流程”主要由5部...翻译 2018-05-14 18:15:14 · 457 阅读 · 0 评论 -
REAL-WORD MACHINE LEANING(翻译本--目录)
简单介绍为什么翻译这本书?这本书是去年从豆瓣书评中找到的一本书,内容简介精干,并配有简单的试验进行练习,个人认为该书是一本入门机器学习的好书。关键是免费,哈哈。概述基本有两部分,第一部分用于介绍机器学习的工作流程。第二部分则是对应的实际应用。相比于西瓜书,小蓝书,该书内容更为简洁,更适合想了解ML但是不知道从何下手的同学。目录(持续更新)1.关于本书...翻译 2018-05-14 16:42:16 · 167 阅读 · 0 评论 -
REAL-WORD MACHINE LEANING(翻译本--封面)
real-word machine learning 翻译本翻译 2018-05-14 16:32:34 · 207 阅读 · 0 评论 -
Recursive PLS algorithms for adaptive的简单介绍
本文介绍了Recursive PLS algorithms for adaptive 的基本思想http://download.csdn.net/detail/he_min/9492622ecursive PLS algorithms for adaptivedata modeling原创 2016-04-15 21:19:11 · 580 阅读 · 0 评论 -
整理输入输出,与可视化对接
Spark Mllib机器学习库一共有六大类,有12个算法 一、回归算法1.线性回归数据输入格式:(1)、 “标签,特征值1特征值2 特征值3特征值4 .....” (2)、 “标签特征值ID:特征值特征值ID2:特征值......”数据输出格式:(预测1,标签1)(预测2,标签2)...2.逻辑回归数据输入格原创 2016-09-02 22:16:29 · 641 阅读 · 0 评论 -
将hdfs上多个文本数据生成mllib的训练集测试集
每个文本有一列数据,将选中的几个文本按要求合并为训练集供机器学习算法使用将单个文本的hdfs路径设置为参数,提高程序的通用性,将所有文本都追加为一个数组,随后按规定切分读写,速度不是很慢。测试效果还可以package packimport java.io.{File, PrintWriter}import org.apache.spark.{SparkConf, SparkCo原创 2016-09-23 10:40:24 · 683 阅读 · 0 评论 -
空间搜索,时间排序
从某种理解上说仿照工业实际情况,防止突变,因此,可以将训练集按照训练集的标签进行排序,同时将训练集进行聚类,得到n个簇。空间上,首先测试集进来一个样本,首先和n个簇进行距离比较,计算样本到对应簇的距离,并选取最小的距离,对这个簇的训练集进行遍历,通过相似性度量找出最相似的一个样本。时间上,将找到的相似样本对应到训练集的时间序列中。取出此样本的前m个和后m个样本所对应的模型。从而达到对新模型原创 2016-10-31 19:41:39 · 401 阅读 · 0 评论 -
matlab处理采集的声音数据
上次采集的声音信号需要进过一系列的信号的预处理才可以用于机器学习算法的使用。数据处理需要把时域信号转换成频域信号,并把无用频率删除了,并把对应的信号分隔成22个样本,分开样本的意思就是可以做训练集和测试机,从而检测我们训练的模型的正确性。采集的过程如下1.将采集的信号切割到固定的大小package com.hemin.balltest;import java.io.Buff原创 2016-11-12 17:48:23 · 6082 阅读 · 2 评论 -
java实现实时svm预测
支持向量机(svm)是一种常见的算法,但在工业现场中,我们不可能把实验室的笔记本带入现场进行算法测试,因此有必要做一套实时的测量预测系统,这里通过socket通信来仿照实时的产生数据进行了模拟,实现了java实时处理数据的能力1.用历史数据训练模型,2.保存模型,3通过udp协议进行实时传输数据4.进行预测分析这里展示一个简单的实例代码:UDP服务端package co原创 2016-11-01 17:24:54 · 5079 阅读 · 3 评论 -
解决安装caravel中遇到的sasl/saslwrapper.h:22:23: error: sasl/sasl.h: No such file or directory
Installing collected packages: sasl, thrift-sasl, caravel Running setup.py install for sasl ... error Complete output from command /usr/local/bin/python -u -c "import setuptools, tokenize;__file原创 2016-12-03 14:56:51 · 6428 阅读 · 1 评论 -
数据分布矫正
域适应原创 2017-03-24 10:12:40 · 1565 阅读 · 1 评论 -
最大均值差异
引言最大均值差异(maximum mean discrepancy, MMD)提出时候是用来双样本检测,也就直观的判断两个数据的分布。原创 2017-04-06 18:04:10 · 17479 阅读 · 0 评论 -
大数据的相关认识
大数据的相关认识原创 2017-10-17 18:17:19 · 1725 阅读 · 0 评论 -
tf.reducemean()到底是什么意思?
在tensorflow中经常见到reducemean这个api,到底有什么用,到底是对谁求均值?api中是这样写的:tf.reduce_mean(input_tensor, axis=None, keep_dims=False, name=None, reduction_indices=None)Computes the mean of elements across dimensions of a原创 2017-12-02 14:24:22 · 45642 阅读 · 0 评论 -
初学者如何快速开发大数据分析平台
大数据在近几年受到越来越多的关注,如何将大数据快速落地于生产实践,产生相应的经济价值一直是一个值得关注的问题。当谈到大数据,人们首先想到的是,是不是的linux,是不是的学习java,这给大数据技术的应用带来一定的困难。如果,有一款通用的大数据平台,只需要针对具体的业务系统修改数据库和算法即可快速使用,那就会加速大数据技术的普及。而且很多的爱好者,均有兴趣开发一套大数据分析平台,那么对于初学者如何...原创 2018-04-17 22:51:09 · 4105 阅读 · 0 评论 -
熵
在信息论中,熵是用来描述随机变量的不确定性程度,如果XXX是一个取有限个离散随机变量,其概率分布就可以表示为: P(X=xi)=pi,i=1,2,...nP(X=xi)=pi,i=1,2,...nP(X=x_i)=p_i , i=1,2,...n 那么随机变量XXX的熵就可以定义为: H(X)=−∑nipilogpiH(X)=−∑inpilogpiH(X)=-\sum_i^np_ilogp_...原创 2018-04-20 16:15:09 · 282 阅读 · 0 评论 -
变分贝叶斯、变分自编码与变分迁移
目录变分法简介变分推断变分贝叶斯变分自编码变分与迁移 :heart:一些资料变分法简介变分法是研究依赖于某些未知函数的积分型泛函极值的一门科学。也就是求泛函极值的方法称为变分法。典型例子最速降线两点之间的曲线方程定义为: y=y(x)y=y(x)y=y(x)根据能量守恒定理:mgy=12mv2mgy=12mv2mgy=\frac{...原创 2018-05-12 08:31:06 · 876 阅读 · 0 评论 -
PCA主成分分析算法数学推导
原创 2016-03-18 21:42:37 · 663 阅读 · 0 评论