![](https://img-blog.csdnimg.cn/20190910162129644.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习
感性企鹅
数据驱动决策
展开
-
机器学习-java调用机器学习pai的LR模型
背景最近在使用阿里的机器学习pai进行模型训练,训练出来的模型需要给java进行调用来使用。本博客阐述java调用pmml进行预测的过程。实战获取pmml模型在机器学习pai->模板实验->心脏病预测,可以直接训练并且导出模型,具体步骤参考:https://help.aliyun.com/document_detail/34929.html?spm=a2c4g.11186623...原创 2020-01-14 16:56:38 · 738 阅读 · 0 评论 -
机器学习-使用gbdt生成高维特征
背景现在比较流行的ctr预估是gbdt+lr的方法:gbdt进行连续特征的离散化,省去了人为分桶的过程,既提高了效率,又提高了准确率lr,进行最终的特征训练,进行ctr预估本文将阐述如何使用python的sklearn提取高维特征实战import numpy as npfrom sklearn.preprocessing import OneHotEncoderfrom skl...原创 2020-01-09 12:28:00 · 525 阅读 · 0 评论 -
机器学习-nlp-sklearn进行关键词提取(基于tfidf)
背景tfidf相对词频可以很好的反应出文本中的关键词。本文将使用sklearn进行关键词提取。实战结巴分词使用pandas读取csv文件内容遍历titile内容进行分词加载停用词遍历进行停词使用sklearn的TfidfVectorizer对文本进行向量化tfidf.toarray()转换成为矩阵,然后进行行排序,取最后的n个索引(argsort是拿到索引值)通...原创 2020-01-02 21:40:12 · 5138 阅读 · 0 评论 -
机器学习-准确率、召回率、精确率、f1score等
背景机器学习中,如何评估一个模型的好坏极关重要,否则训练出来了我们自己都说不明白到底该不该用,一句话就是心里没底。本文将用较为白话的角度来阐述这些指标。注:这些指标(准确率、精确率、召回率)用中文表示容易混淆,例如准确率和精确率,本文将用英文来进行表述指标介绍在介绍之前,我们先上一个二分类的例子假定已经根据训练集训练出了一个模型,这个模型等待进行评估。现在给定测试集,正样本60个,...原创 2019-12-09 15:56:20 · 951 阅读 · 0 评论 -
机器学习-阿里机器学习pai简介
背景与目标现在有什么?业务数据有一定的积累现在需要什么?更好的理解客户,抽象出准确的用户画像更好的理解现有内容和商品把内容、商品与用户连接起来,提高用户粘性以及商品的成交概率落实到工程中,需要一种高效的数据分析的手段。本博客将阐述机器学习PAI的优缺点。常规手段数据分析分析需求出现的时候,找BI(Business Intelligence,业务情报)部门,BI同学按照需求和...原创 2019-11-07 14:27:14 · 3511 阅读 · 0 评论 -
线性代数-程序员的线性代数-矩阵乘法的性质与矩阵的转置(4.9-4.11)
背景和目标背景,继续进行线性代数的研究和总结目标,了解矩阵的基础操作划重点4.9 矩阵的性质乘法分配率乘法结合律不支持交换律矩阵相乘,非常关注形状4.10 矩阵的转置概念(为了进行矩阵相乘,才出现了矩阵转置的概念),就...原创 2019-11-04 21:35:41 · 594 阅读 · 0 评论 -
线性代数-程序员的线性代数-矩阵乘法(4.5-4.8)
背景与目标继续之前的线性代数走读划重点4.5 矩阵看成一个系统4.6 矩阵和向量的乘法矩阵和向量相乘来表征一个系统的方法(如果把x当做特征值,是不是有种机器学习的感觉了)乘法的过程向量与矩阵的乘机结果的维度结构不变,所以矩阵可以理解为是向量的函数(这样理解,也完全符合机器学习的思想)函数的概念:把一个数(或者向量等等),转换为另外一个数(或者是向量等等)4.7 矩阵和矩...原创 2019-11-04 11:23:33 · 224 阅读 · 0 评论 -
机器学习-阿里机器学习pai走读(2-数据预处理)
背景pai的数据预处理功能比较全,本博客将走读一下。实战过程理论分析原创 2019-11-01 17:43:06 · 386 阅读 · 0 评论 -
线性代数-程序员的线性代数-矩阵的基本运算(4.3-4.4)
划重点4.3 矩阵的基本运算加法,对应的位置进行加和(矩阵相加,前提条件是结构一样)这里有一个例子,帮助理解向量加法数量乘法,在每一个元素上进行数量乘机。4.4 基本运算实现略(套路和之前相同)评价向量和矩阵的基本运算相似,为了提高效率,部分重复的内容需要进行省略。...原创 2019-10-31 11:51:01 · 256 阅读 · 0 评论 -
机器学习-阿里机器学习pai走读(1-源/目标)
背景公司较多的使用了阿里的产品,特别是云数据库rds和大数据max compute(原odps),那么,使用机器学习pai进行机器学习和数据挖掘,理论上来说是首选(因为pai和max compute的数据是互通的)。本博客系列将走读一下pai的基础功能,带有相关的实战和应用分析。实战操作创建实验新建一个实验,所有的实战过程必须在实验中进行数据读取直接使用pai的读数据表组件,设置m...原创 2019-10-31 10:55:21 · 353 阅读 · 0 评论 -
线性代数-程序员的线性代数-矩阵的概念与实现(4.1-4.2)
背景机器学习中还有另外一种非常重要的概念矩阵,以下开始接触。划重点4.1 矩阵的概念向量是数字的组合,矩阵是向量的组合方阵矩阵的索引表示4.2 矩阵的实现class Matrix: def __init__(self, list2d): self._values = [row[:] for row in list2d] def __str_...原创 2019-10-30 14:38:41 · 176 阅读 · 0 评论 -
线性代数-程序员的线性代数-numpy与向量(3.7)
背景自行实现Vector更多是为了学习来用,工程级别的向量操作需要使用numpy来进行。划重点可以参考之前写的一篇博客,里面简述了一些简单用法,用jupyter实现演示:python-支持库走读(numpy+线性代数)以下对之前的自我实现,使用numpy重新实现实现一下。制作一个向量加减乘除、模、单位向量切片、索引评价numpy中的操作众多,博主将会在另外一个系列的博客将进...原创 2019-10-30 13:14:14 · 149 阅读 · 0 评论 -
线性代数-程序员的线性代数-向量的內积(3.3-3.6)
背景本节很重要,点积涉及到了卷积神经网络基础。划重点3.3 两个向量相乘(內积)对应元素相乘,再想加內积结果是一个数通过勾股定理可以证明,并且得到如下的几何意义(如下也是向量內积的结果)3.4 两个向量相乘(內积)另外一个理解,向量的点乘是一个向量先投影到另外一个向量,然后再做乘机向量点乘,可以理解为先投影到特征空间,然后再做乘机(这里可以发散到卷积神经网络,卷积可...原创 2019-10-29 14:51:57 · 233 阅读 · 0 评论 -
线性代数-程序员的线性代数-向量的长度与单位向量(3.1-3.2)
背景https://www.youtube.com/watch?v=ttsL2sfTsvs&list=PLSKUOdPqiSdt12cbA3Vz3APLUyOdn165h&index=14https://www.youtube.com/watch?v=w6DY5k9f9vM&list=PLSKUOdPqiSdt12cbA3Vz3APLUyOdn165h&inde...原创 2019-10-29 11:29:58 · 3196 阅读 · 0 评论 -
线性代数-程序员的线性代数-向量的性质、零向量的实现(2.6-2.8)
背景https://www.youtube.com/watch?v=jd_zSYyCXbM&list=PLSKUOdPqiSdt12cbA3Vz3APLUyOdn165h&index=10https://www.youtube.com/watch?v=jd_zSYyCXbM&list=PLSKUOdPqiSdt12cbA3Vz3APLUyOdn165h&inde...原创 2019-10-24 10:59:28 · 1048 阅读 · 0 评论 -
线性代数-程序员的线性代数-向量的基本运算以及python实现(2.4-2.5)
背景这里是一系列的文章,专门研究程序员可能使用到的线性代数。本系列文章主要参考以下视频:2.4https://www.youtube.com/watch?v=jd_zSYyCXbM&list=PLSKUOdPqiSdt12cbA3Vz3APLUyOdn165h&index=82.5https://www.youtube.com/watch?v=jd_zSYyCXbM&am...原创 2019-10-23 15:15:40 · 332 阅读 · 3 评论 -
线性代数-程序员的线性代数-什么是向量、实现自己的向量(2.1-2.3)
背景划重点2.1 向量vector向量就是一组数(6, 3, 8)就是一个三维向量。还有一个更确切的说法,向量就是空间中的一个点。基本出发点:表示方向向量与原点没有太多关系(向量默认就是以原点作为起始点)在现实世界中,三维向量就够了 (1,2,3),表示立体空间中的一个点。在超现实的数学中,可以有n维向量,维度就是数字的个数在机器学习中,一个向量可以理解为一个物品的n维特征...原创 2019-10-23 12:34:17 · 291 阅读 · 0 评论 -
线性代数-程序员的线性代数-课程使用环境搭建(1.4)
背景xxxxxxxxxx划重点全程用python,视频制作者推荐anaconda(博主也盛情推荐,如果是linux环境,可以参考我的其他的博文进行anaconda环境的安装),原创 2019-10-22 20:44:50 · 370 阅读 · 0 评论 -
线性代数-程序员的线性代数-导读(1.1-1.3)
背景这里是一系列的文章,专门研究程序员可能使用到的线性代数。本系列文章主要参考以下视频:https://www.youtube.com/watch?v=_e0YDqn_V1U&t=69s划重点线性代数对理工科非常重要线性代数和初等数学的差异是:从某个数—》一组数(也就是向量和矩阵),因为真实世界是多维度(比如,一朵花有:颜色、高度、宽度等多种特征,每个特征都是一个维度)。...原创 2019-10-18 18:17:03 · 269 阅读 · 0 评论 -
python-支持库走读(numpy+线性代数)
背景在使用python做机器学习的时候,numpy使用的频率极高,工欲善其事必先利其器,本博客将走读一下numpy。安装pip install numpy结合概念编码实战标量、向量、矩阵和张量的numpy表示操作普通操作內积(与卷积)內积(又名点积),专门用于提取特征。卷积是移动的内积。做卷积的意义是变换特征空间。内积作用是提取我想要的特征。内积是向量在某个特征(向量...原创 2019-10-18 15:29:25 · 187 阅读 · 0 评论 -
机器学习-文本-基础算法tfidf
背景之前对tfidf处于应用的层级,本博文将从原理和实战上来对其进行阐述。原理白话tfidf的核心思想:一个单词在同一个文档中出现的次数越多,说明这个词越重要一个单词出现在不同的文档中的次数越多,说明这个词越不重要tfidf的输入和输出:输入:文档分词输出:词的重要性举例输入:文档1:我 爱 技术 人民。文档2:我 爱 电脑。文档3:我 爱 加班 的 人民。重要...原创 2019-10-14 21:35:31 · 458 阅读 · 0 评论 -
深度学习-在mac osx下搭建caffe环境搭建(mac 10.14 + caffe + python)
背景自己不想弄ubuntu虚拟机了,准备直接在mac下进行开发,于是开始搭建mac版本的caffe环境(过程有点艰辛,本博客就当做笔记用吧)caffe的Makefile.config文件以下关键地方进行注释## Refer to http://caffe.berkeleyvision.org/installation.html# Contributions simplifying and...原创 2019-08-14 15:19:29 · 1256 阅读 · 0 评论 -
深度学习-caffe基于minist的数据集实战
背景最近在学习ncnn,而ncnn对caffe的模型支持的很好,我们就先从caffe开始。我的其他的博客已经写到了caffe的安装过程,下面我们来用caffe来做一个Hello world级别的实战,即mnist数据集。实战实战准备安装Ubuntu系统编译caffe编译pycaffe实战1(直接用caffe准备脚本进行训练)cd caffe-1.0# 下载数据集./da...原创 2019-08-06 21:07:01 · 467 阅读 · 0 评论 -
深度学习-caffe环境搭建(ubuntu 18+caffe+python)
背景调研ncnn的过程中,发现ncnn使用的模型原创 2019-08-02 14:16:37 · 777 阅读 · 0 评论 -
深度学习-ncnn环境搭建与demo测试(vmware+Ubuntu+clion+ncnn+c++)
背景之前调研了dlib的方法,发现手机端运行的效率较低,需要对比一下阿里的mnn和腾讯的ncnn官方文档解读ncnn首页一览地址:https://github.com/Tencent/ncnnncnn 是一个为手机端极致优化的高性能神经网络前向计算框架。ncnn 从设计之初深刻考虑手机端的部署和使用。无第三方依赖,跨平台,手机端 cpu 的速度快于目前所有已知的开源框架。基于 ncnn,...原创 2019-07-12 11:39:19 · 2689 阅读 · 0 评论 -
深度学习-人脸识别环境搭建与demo演示(windows+face_recognition+dlib+pycharm)
文章目录搭建windows的python环境下载pycharm下载face_recognition源码demo演示源码初步分析人脸定位参考find_faces_in_picture.py人脸编码和识别参考identify_and_draw_boxes_on_faces.py搭建windows的python环境推荐直接安装anaconda 5.2(自带python3.6.8)安装地址:http...原创 2019-07-01 11:23:31 · 2469 阅读 · 0 评论 -
深度学习-caffe可视化(自画图+在线可视化工具)
背景caffe的神经网络定义是用的protobuf,调理虽然清晰,但是网络大了以后还是不容易观看,下面来做一下caffe神经网络的可视化自画图又caffe提供的画图工具/Users/wang/soft/caffe/python/draw_net.py命令如下:python draw_net.py ~/Desktop/bak_model/mobilenet_train_test.prot...原创 2019-08-14 21:59:33 · 989 阅读 · 0 评论 -
深度学习-从历史认识深度学习
版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。 ...转载 2019-08-22 17:11:37 · 2098 阅读 · 0 评论 -
深度学习-服务端训练+android客户端物体识别实战(caffe+mobilenet+ncnn+android)
文章目录什么是深度学习概念意义发展史多层感知机卷积神经网络物体检测什么是深度学习概念意义发展史https://www.jianshu.com/p/efda7876fe1c数学之美多层感知机卷积神经网络物体检测...原创 2019-08-27 15:05:56 · 3154 阅读 · 0 评论 -
深度学习-deepin深度学习环境搭建(deepin+gpu+cuda+cudnn)
背景之前分别在windows、mac上做深度学习,发现遇到了重重困难。最近正好赶上换机器,顺便也买了gtx1080的显卡,就直接装了deepin的操作系统(大家都反应还不错,自己实际体验也是众望所归)。下面我将分享在deepin上搭建gpu环境的深度学习环境。deepin系统:15.11桌面版概述卸载deepin原有开源显卡驱动安装nvidia官方驱动安装cuda的工具包(tools...原创 2019-09-03 21:20:17 · 6323 阅读 · 2 评论 -
深度学习-caffe在cifar10、mnist数据集cpu、gpu训练速度对比(deepin15.11+caffe+cpu+gpu+cifar10+mnist)
背景gpu的训练速度优于cpu,那么到底快多少呢?本博客拿caffe、cifar10做一下测试。机器配置系统:deepin 15.11cpu:i7 7700内存:32G 2400hz显卡:gtx1080(中端)gpu训练数据cpu训练数据耗时 = 17:16:00 - 17:23:39 = 8分钟...原创 2019-09-05 09:36:52 · 1720 阅读 · 0 评论 -
深度学习-keras项目demo实战(tensorboard_embeddings_mnist)
背景之前做了一下caffe的博客,但其可视化效果不是很好,本系列博客将阐释另外一个深度学习框架,tensorflow+keras的demo分析。本博客主要针对tensorboard_embeddings_mnist的demo进行实战和分析安装keras+tensorflowpip install keras进行安装。keras只是一个上层封装的API,说白了就是一个壳子,真正干活的是Ten...原创 2019-09-06 12:16:05 · 1067 阅读 · 1 评论 -
深度学习-数据增强(keras+PIL)
背景有朋友在进行yolo的训练过程中遇到了数量量不够的情况,毕竟标注数据是实在太困难,另外真实场景的数据也不是那么容易获得。那么该如何缓解这种窘境呢?答案就是数据增强。数据增强方案合成增强,假如你想识别的是一个死的物体,比如煤气罐。。而你又不想自己在各种场景下去拍照制作训练数据,那么进行数据合成算是一个思路。如果是猫狗这种动物的话,最后还是老老实实的收集数据图像变换,利用keras,对图...原创 2019-09-09 11:56:11 · 978 阅读 · 2 评论 -
深度学习-数据集收集
背景无论是做深度学习的调研还是商业化功能,一个必不可少的部分就是数据。开源的框架和神经网络固然重要,开放的数据集也同样不能忽视。下面对数据集进行一下收集,最终会存到网盘,方便下载。mnist手写字体cifar的十分类参考:http://www.cs.toronto.edu/~kriz/cifar.html60000个32 * 32的带颜色通道图片,共有10类。50000用于训练1...原创 2019-09-09 14:52:56 · 2305 阅读 · 0 评论 -
深度学习-keras项目demo实战(mnist_mlp)
背景继续走读一下keras的demo:mnist_mlpgit地址:https://github.com/keras-team/keras.git目录:examples代码诠释'''Trains a simple deep NN on the MNIST dataset.Gets to 98.40% test accuracy after 20 epochs(there is *a...原创 2019-09-09 15:55:41 · 584 阅读 · 0 评论 -
深度学习-人脸识别face_recognition环境搭建(阿里云ecs+cuda8+cudnn7+dlib+face_recognition)
文章目录申请阿里云ecs选择镜像安装环境python环境深度学习环境申请阿里云ecs规格选择https://help.aliyun.com/document_detail/25378.html型号选择gn5i,华东1区,价格2000+一个月cuda驱动:cuda8.1硬盘等视需求而定,我这个人脸识别的项目选择的是100G ssd,上传数据会快一点(但是价格更贵)选择镜像运维给我选...原创 2019-06-30 14:05:29 · 1450 阅读 · 0 评论