自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

中国小宝

数据挖掘, Python, 机器学习,Java,爬虫

  • 博客(6)
  • 资源 (1)
  • 收藏
  • 关注

翻译 前言 机器学习中的数学归纳整理(信息论部分)

本文收录归纳了一些机器学习中涉及到信息论的部分,主要用于特征抽取、统计推断、自然语言处理等。目录1.熵1.1自信息和熵1.2联合熵和条件熵2.互信息3.交叉熵和散度3.1交叉熵3.2KL 散度3.3JS 散度3.4Wasserstein 距离1.熵1.1自信息和熵熵(Entropy)最早是物理学的概念,用于表示一个热力学系统的无序程...

2019-03-31 22:25:24 376

翻译 前言 机器学习中的数学归纳整理(概率论部分)

本文收录归纳了一些机器学习中涉及到概率论的部分,主要用于研究建模究大量随机现象中的数量规律。目录1事件和概率1.1 随机变量1.1.1 离散随机变量1.1.2 连续随机变量1.1.3 累积分布函数1.2 随机向量1.2.1离散随机向量1.2.2连续随机向量1.2.3边际分布1.2.4条件概率分布1.2.5独立与条件独立1.2.6 期望和...

2019-03-31 09:55:54 1956

翻译 前言 机器学习中的数学归纳整理(线性代数部分)

本文收录归纳了一些机器学习中涉及到线性代数的部分,主要包含向量、向量空间(或称线性空间)以及向量的线性变换和有限维的线性方程组。目录1向量及向量空间1.1向量1.2向量空间1.3范数1.4 常见的向量2.矩阵2.1 线性映射2.2矩阵操作2.3 矩阵类型2.4 特征值与特征矢量2.5 矩阵分解1向量及向量空间1.1向量标...

2019-03-30 20:07:54 587

原创 第2章 KNN邻近规则算法及其在潜在客户发掘的应用

本文主要介绍KNN邻近规则算法的过程:目录1.KNN临近规则算法概述2.KNN算法的构建2.1 KNN2.2 KNN构建2.3 KNN优缺点3.KNN算法编码实现3.1 编码过程3.2 输出1.KNN临近规则算法概述KNN是机器学习领域一个简单又实用的算法。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。...

2019-03-24 14:10:33 1138

原创 第1章 决策树算法及其在商品购买行为预测的应用

本文主要介绍决策树的过程:目录1.决策树2.决策树的构建2.1信息熵2.2节点构建2.3决策树的优缺点3.决策树的编程实现。3.1 Python编码实现3.2输出1.决策树决策树一般都是自上而下的来生成的。每个决策事件都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。基本思想是以信息熵为度量构造一棵熵值下降...

2019-03-23 14:22:15 5861 2

原创 根据HSV分量模型,提取红色的几种方法介绍

根据hsv分量模型,各种颜色范围分布如下:红色的范围是:[0, 43, 46]~[10,255,255]∪[156, 43, 46]~[180,255,255]。红色比较特殊,覆盖了多个范围,处理起来增加了不少难度,以下介绍两种方法去获取红色。方法1:import cv2import numpy as npdef extract_red(pic): '''...

2019-03-19 18:50:10 16331 3

366万常用的中文词汇整理

作者:刘邵博 此词典为个人综合多本词典整合的一个大词典,词典共有词汇3669216个词汇。 词典结构为:词语\t词性\t词频。 词频是用ansj分词对270G新闻语料进行分词统计词频获得。 部分词汇无法确定是什么词性,对词性进行特别标注:nw和comb 1、词性nw表示本身不知道是什么词性。 2、词性comb表示通过ansj的nlp分词之后又被拆成了两个词。

2018-09-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除