![](https://img-blog.csdnimg.cn/20200320172704273.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据:机器学习
文章平均质量分 69
机器学习Blog
HaiwiSong
一切只为让自己变得更优秀!
展开
-
PySpark基于Conda自定义Python运行环境
文章目录背景conda创建环境并zip打包上传zip包到hdfsspark-submit提交参数设置参考背景在使用PySpark进行开发时,面临的痛点问题之一是Driver或Executor上运行Python的包依赖的问题,解决办法之一是可以通过Conda创建环境解决Python包依赖的问题,具体为在本地机器打包Conda创建的运行环境为zip包,然后zip包上传hdfs,然后在spark-submit提交命令中添加archives和spark.pyspark.python参数的方式解决。conda创原创 2021-03-13 15:08:39 · 2357 阅读 · 0 评论 -
opencv中的几种图像变换
opencv中的几种图像变换,由于公司内部保密原因,效果图不能贴出来了,可作为代码片段收藏灵活使用,下面代码是把参数给出的坐标点包围的区域变水平:# coding:utf-8import cv2import numpy as npimport math# 2D旋转 p0,p1为某条直线的坐标;center为旋转中心,默认以图片中心旋转;scale缩放比例def pic_rotat原创 2018-02-07 12:29:12 · 688 阅读 · 0 评论 -
Yolov3之生成训练数据
采用yolov3训练目标检测模型第一步也是生成训练数据,本文提供一种从faster-rcnn训练数据到yolov3训练数据的方式,由于faster-rcnn的训练数据为VOC标注文件格式,这种数据比较容易获取,而采用原作者github的yolov3的训练数据是独有的,所以需要进行一步转换。由原始的VOC标注文件转换为faster-rcnn训练数据博文详见:faster-rcnn之生成训练数据 本文...原创 2018-08-02 17:27:06 · 2460 阅读 · 0 评论 -
Yolov3之训练日志可视化
yolov3训练日志可视化主要为loss和iou曲线的可视化,这些是我们查看训练效果的重要依据,首先看一个批次的日志输出: 说明: 一个批次有16*3条信息,每组包含三条信息,分别是: Region 82 Avg IOU: Region 94 Avg IOU: Region 106 Avg IOU: 其中每行的参数意义如下: Avg IOU:当前迭代中,预测的box与标注...原创 2018-08-02 18:19:35 · 12232 阅读 · 26 评论 -
Yolov3之darknet下训练与预测
Yolov3之darknet下训练与预测在做一些实时性要求比较高的目标检测时候,经常会选择Yolov3。本文介绍其训练和预测过程:官网:https://pjreddie.com/darknet/github地址:https://github.com/pjreddie/darknet一、制作数据集数据生成直接参见另一篇博文 Yolov3之生成训练数据二、修改配置文件...原创 2018-08-02 20:49:24 · 7041 阅读 · 0 评论 -
faster-rcnn之训练日志可视化
#coding=utf-8import os, re, tracebackimport matplotlib.pyplot as pltclass LogVisual: def readFile(self, path): file = open(path, 'r') lines = [line.strip() for line in file...原创 2018-08-17 16:24:34 · 3557 阅读 · 13 评论 -
Caffe模型转TensorFlow模型并预测
在实际的生产环境中,有时候我们需要caffe模型转换为TensorFlow模型用于部署,甚至支持手机端(主要由于tensorflow有c++、python 的api支持手机端)。本文主要是介绍开源库caffe-tensorflow的使用。python2版本:https://github.com/ethereon/caffe-tensorflowpython3版本:https://github....原创 2018-11-21 15:01:29 · 1176 阅读 · 0 评论 -
一文弄懂word2vec(从源码解析)
文章目录一、简介二、两种模型1、CBOW2、Skip-Gram三、Trick1、hierarchical softmax2、negative sampling四、比较五、最佳实践一、简介Word2Vec并非指一个模型,而是2013年Google开源的一个获取词向量的工具包,由于简单高效,大大降低了词向量在工业界的应用门槛。我们先来看下Word2Vec能够取得的效果:相似词:通过向量间距离的...原创 2019-03-20 13:06:22 · 815 阅读 · 0 评论 -
一文弄懂ROC、AOU和F1 Score评价指标
文章目录混淆矩阵ROCAOUPRCF1-Score多分类的F1-Score选择指标ROC 曲线和 AUC 常被用来评价一个 二值分类器 的优劣。混淆矩阵其中,TP(真正,True Positive)表示真正结果为正例,预测结果也是正例;FP(假正,False Positive)表示真实结果为负例,预测结果却是正例;TN(真负,True Negative)表示真实结果为正例,预测结果却是负例...原创 2019-04-20 23:58:30 · 14715 阅读 · 2 评论 -
一文弄懂L0、L1和L2正则化范式
文章目录正则化L0范数L1范数L2范数elastic net总结讨论几个问题为什么L1稀疏,L2平滑?实现参数的稀疏有什么好处吗?参数值越小代表模型越简单吗?正则式的应用场景正则化正则化的作用实际上就是防止模型过拟合,提高模型的泛化能力。正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项(regularizer)或惩罚项(penalty term)。正则化一般是模型复杂度的单调递...原创 2019-04-28 19:21:31 · 9140 阅读 · 0 评论 -
faster-rcnn之生成训练数据
目标检测的数据无论是从imagenet上获取还是通过labelImg人工标注获得,最后的标注文件都遵循imagenet标注文件的格式,本文提供一种imagenet数据到faster_rcnn训练数据的转换代码,同时代码对标注边框处理,防止进入训练由于边框坐标问题引起报错。首先看一下faster-rcnn要求的训练数据的结构图如下: 代码用到另一篇文章的工具类,请自行前往下载加载: Image...原创 2018-08-02 15:31:26 · 851 阅读 · 0 评论 -
机器学习笔记之决策树的特征选择
决策树学习算法包含特征选择、决策树的生成与决策树的剪枝。特征选择作为第一步,在整个决策树的构建起到至关重要的作用。特征选择在于选取对训练数据具有分类能力的特征,这样可以提高决策树学习的效率。原创 2018-06-26 14:23:50 · 8620 阅读 · 0 评论 -
tensorflow中tfrecords文件的save和read
在tensorflow程序中,推荐使用tensorflow内定标准格式——TFRecords,本文是对csv生成TFRecords文件并读取显示的代码实现原创 2017-06-01 13:14:01 · 2141 阅读 · 0 评论 -
caffe的lmdb数据读取
import lmdbimport caffeif __name__ == '__main__': lmdb_path=r'./DeepID2_train_lmdb'#open lmdb lmdb_env = lmdb.open(lmdb_path) #begin transaction lmdb_txn = lmdb_env.begin() #get原创 2018-01-31 15:28:00 · 1668 阅读 · 0 评论 -
Imagenet标注文件的Read和Write
class PicAnno: objects = [] def __init__(self, folder): self.objects = [] self.folder = folder def set_folder(self, folder): self.folder = folder def set_fil原创 2018-02-02 22:00:07 · 1462 阅读 · 0 评论 -
faster-rcnn之caffe下利用vgg16训练及预测
工作中经常用到py-faster-rcnn做图片的检测与识别,训练过程有必要记录一下,下面是参照网上的一些资料整理实践后的总结: py-faster-rcnn的github地址:https://github.com/rbgirshick/py-faster-rcnn数据采用VOC 2007格式。 一、制作数据集 程序/工具:VOC2007文件夹、labelImg 处理流程:图像重命原创 2018-02-07 11:53:15 · 1540 阅读 · 0 评论 -
cv2最强仿射变换(支持n点对齐,可进行人脸对齐)
人脸识别过程中,人脸对齐往往是最重要的一步,对齐的结果往往影响之后提取人脸特征的准确率,opencv内置的仿射变换仅仅需要三个点,而需对齐的人脸关键点一般是5个、68个、128个,本文提供一种n点对齐的放射变换点,以5个关键点的对齐为例: 代码参考来源:https://matthewearl.github.io/2015/07/28/switching-eds-with-python/#...原创 2018-04-02 11:01:23 · 13728 阅读 · 29 评论 -
python中base64加解密图片进行post传输
在post中传输图片时,通过对图片进行base64加密成字符串传输,在服务端在base64解码为图片在一些场景中往往更简单、高效。客户端代码:#coding=utf-8import requests,base64,json,os,shutil,cv2import numpy as npimport logginglogging.basicConfig( level=lo原创 2018-02-07 12:44:10 · 5858 阅读 · 0 评论 -
机器学习笔记之核函数
基本概念举例理解核函数常用的核函数线性核函数多项式核函数高斯核函数(RBF)sigmoid核函数核函数的选取原则基本概念核函数定义: 核函数:是映射关系的内积,映射函数本身仅仅是一种映射关系,并没有增加维度的特性,不过可以利用核函数的特性,构造可以增加维度的核函数,这通常是我们希望的。 例如这样一个图,数据集不是线性可分的: 该数据集在二维...原创 2018-06-18 15:43:45 · 6053 阅读 · 5 评论 -
tensorflow设置log等级
设置tensorflow的log日志等级。常用设置os.environ['TF_CPP_MIN_LOG_LEVEL']='原创 2017-05-31 19:53:05 · 6804 阅读 · 0 评论