自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 常见监督学习、聚类、集成、降维、推荐算法汇总(一):监督学习

前言监督学习最简单的理解就是给数据打上标签后让机器进行学习的模式。支持向量机(SVM)硬间隔最大化支持向量机目的: 寻找能达到最优分类的超平面,并且使其具有最优的鲁棒性,即最好的泛化能力。感知机: 以误分类最小为策略(解)支持向量机: 以间隔最大化为策略(存在最优解)函数间隔和几何间隔的差别?答:一般来说一个点距离超平面的远近可以衡量预测的确信程度。函数间隔可以表示分类预测的正确性以及准确度,但是成比例的改变超平面的参数,在超平面不变的情况下,函数间隔也会增加。为了解决这个问题就将超平面的参

2020-08-21 16:54:47 1781

原创 音乐推荐系统

NLP的TF-IDF算法NLP文本相似度字面相似度语义相似度在如今互联网各种垂类网站上,根据业务的不同存在多种文本相似度的定义。不存在一种四海之内皆通用的定义,只能根据业务不同进行分析。余弦相似度相似度度量:计算个体之间的相似程度相似度越小,距离越大,相似度值越大,距离越小最常用——余弦相似度:一个向量空间中的两个向量的夹角的余弦值作为衡量两个个体之间差异的大小,余弦值接近1,夹角趋向于0,表示两个向量越相似。cosθ=a∗b∣∣a∣∣∗∣b∣∣cos \theta = \frac

2020-07-22 09:35:58 776

原创 Hadoop分布系统入门(四):HBase篇

HBase简述HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase 技术可在廉价 PC Server 上搭建起大规模结构化存储集群。HBase适用场景:大数据量存储,大数据量高并发操作需要对数据随机读写操作读写访问均是非常简单的操作HDFS:分布式存储提供文件系统优化存储大尺寸的文件,不对文件进行随机读写直接使用文件数据模型不灵活优化一次写入,多次读取的方式使用文件系统和处理框架

2020-07-19 18:31:11 302

原创 Hadoop分布系统入门(三):Zookeeper篇

Zookeeper概述Zookeeper 是一种分布式的,开源的,应用于分布式应用的协作服务。它提供了一些简单的操作,使得分布式应用可以基于这些接口实现诸如同步、配置维护和分集群或者命名的服务。Zookeeper 很容易编程接入,它使用了一个和文件树结构相似的数据模型。可以使用 Java或者 C来进行编程接入。其本质是分布式锁服务,可以在Storm集群中协调不同节点之间的工作。与单机系统不同:内存地址一致、单机出问题概率低分布式系统:一致性问题、容灾容错、执行顺序问题、事务性问题Zookee.

2020-07-19 17:41:23 352

原创 物体检测SSD算法理论浅析

物体检测简述物体检测主流的算法可以分为:基于候选区域的目标检测(Two-Stage):滑动窗口检测器、R-CNN、Fast R-CNN、RPN、F-RCNOne-Stage(单次)目标检测:SSD、YOLO、YOLOv2、YOLOv3Two-Stage的主流思想是首先通过启发式算法或者CNN网络产生一系列稀疏的候选框,然后对这些候选框进行分类或者回归。这类算法的优势是准确率高。One-Stage的思路是均匀地在图片的不同位置进行密集抽样,抽样时可以采用不同尺度和长宽比,然后利用CNN提取特征后

2020-07-19 11:07:29 392

原创 大数据的常见业务问题和业务场景

三种常见业务问题概述以及推荐系统详细剖析

2020-07-18 19:48:42 1235 2

转载 opencv视频识别mask

# keras_infer.py# -*- coding:utf-8 -*-import cv2import timeimport argparseimport numpy as npfrom PIL import Imagefrom keras.models import model_from_jsonfrom utils.anchor_generator import generate_anchorsfrom utils.anchor_decode import decode_bbo

2020-07-17 19:31:26 597 1

原创 Hadoop分布系统入门(二):MapReduce篇

MapReduce是Hadoop核心编程模型,在Hadoop中,数据处理核心就是MapReduce程序设计模型。

2020-07-17 11:28:03 278

原创 Hadoop分布系统入门(一):HDFS篇

新开的Hadoop学习系列,利用Hadoop技术集群一步一步开始独立完成一个项目的实现。今日第一篇章:HDFS篇。

2020-07-16 15:47:35 339

原创 python卷积神经网络入门

注:东北大学理学院大三暑期实训(第四天)卷积神经网络案例:识别数字Mnist数据集图像输入:图片尺寸越大,全连接(经典神经网络)所需要的计算量越大。可采用局部连接模式(卷积神经网络)来降低参数数目(局部感受野)。import warningswarnings.filterwarnings("ignore")import numpy as npimport pandas as pdfrom keras.utils import np_utilsimport matplotlib.pypl

2020-07-16 11:01:02 724

原创 利用神经网络最简单的多层感知机MLP模型在著名手写测试机Mnist上完成一次标准的深度学习流程

经典手写Mnist数据集一个最简单的神经网络多层感知机模型训练的全过程

2020-07-15 17:03:50 638 1

原创 深度学习神经网络模型训练中Python的常用库

Numpy库import numpy as npone = np.ones(shape = (2,4),dtype=int) #创建2行4列的矩阵,元素为int型#+-*/对矩阵操作遵守广播原理,即对所有元素都进行运算。one.shape # 输出矩阵的维度# 输出随机浮点数 维度为3*4np.random.random(size=(3,4))a = np.arange(12).reshape(3,4) # 重新排列数组a[1:3,:] #选择第二行和第三行的内容a[:,1] #选择第二列

2020-07-14 17:02:14 1135 2

原创 Linux基础命令汇总(hadoop方向必知)

入门hadoop时候需要熟悉基础的linux操作命令,这里做了一个简要的汇总,要是以后有新的学习就会有新的更新了!

2020-07-14 11:23:36 268

原创 学习深度学习内容前Python的基础回顾

Anaconda建立环境1.建立虚拟环境conda create --name tensorflow python=3.52.激活虚拟环境activate tensorflow3.关闭虚拟环境deactivate4.安装tensorflow和Keraspip install tensorflowpip install kerasTips:一定要注意python、Tensorflow、keras版本的对应(点这里看列表:a = []b = [1,2,3,4]c = [1,1

2020-07-13 11:38:07 674 5

原创 统计学中那些乱七八糟的假设检验汇总~

统计学中的那些假设检验的查漏补缺

2020-07-04 21:36:46 1471

原创 从一个实际问题来入门数据分析(一)

产品运营中与数据分析相关的知识点汇总

2020-07-04 18:01:09 1569

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除