风声想起-CSDN博客

原创 elasticsearch去重查询

elasticsearch去重查询目录：1、业务背景：2、切入正题：去重查询1、业务背景：最近的实际中业务中，要对用户订单数据进行统计，用户订单数据从用户下单到支付的过程都会记录，同时每次用户订单查看也会产生一次订单更新数据，但是由于历史原因，用户订单更新数据入库没有进行整理，都是直接把订单相关的数据存入es。今天某项数据分析需要对用户订单进行查询并去重做一些针对订单维度的分析。2、...

2019-08-24 12:20:26 3474 5

原创李宏毅机器学习 Machine_Learning_2019_Task9

利用 Python 结合 Matplotlib 绘制树图形参考：https://blog.csdn.net/maotianyi941005/article/details/82349032import matplotlib.pyplot as pltdecisionNode = dict(boxstyle="sawtooth", fc="0.8")leafNode = dict(boxst...

2019-06-15 21:58:37 188

原创李宏毅机器学习 Machine_Learning_2019_Task8

目录：一、决策树(decision tree)模型与学习二、特征选择三、决策树的生成四、应用部分一、决策树(decision tree)模型与学习1、决策树模型决策树（decision tree）在机器学习中是一种基本的分类与回归方法。2、二、特征选择三、决策树的生成四、应用部分...

2019-06-15 21:28:50 278

原创李宏毅机器学习 Machine_Learning_2019_Task7

学习任务：Additional References(熵的理解)1、信息熵熵 (entropy) 这一词最初来源于热力学。1948年，克劳德·爱尔伍德·香农将热力学中的熵引入信息论，所以也被称为香农熵 (Shannon entropy)，信息熵 (information entropy)。首先，我们先来理解一下信息这个概念。信息是一个很抽象的概念，百度百科将它定义为：指音讯、消息、通讯系统传输...

2019-06-06 01:58:33 155

原创李宏毅机器学习 Machine_Learning_2019_Task6

学习目录个人自己创建数据，实现分类任务生成数据示例：实现一个分类任务的过程：# 导入import numpy as npimport matplotlib.pyplot as plt# 随机生成训练数据def generate_data(seed): np.random.seed(seed) data_size_1 = 300 x1_1 = np.r...

2019-06-02 22:10:02 147

原创李宏毅机器学习 Machine_Learning_2019_Task5

学习目录目录：1、推导LR损失函数(1)2、学习LR梯度下降(2)3、Softmax原理(3)4、softmax损失函数(4)5、softmax梯度下降(5)1、推导LR损失函数逻辑回归中选择 Sigmoid函数作为预测函数。Sigmoid函数：g(z)=11+e−zg(z)=\frac{1}{1+e^-z}g(z)=1+e−z1由这个函数可得：当z趋于正无穷时，g(z)趋于...

2019-06-02 21:28:44 122

原创李宏毅机器学习 Machine_Learning_2019_Task4

学习任务：[目录：从基础概率推导贝叶斯公式，朴素贝叶斯公式(1)学习先验概率(2)学习后验概率(3)学习LR和linear regreeesion之间的区别(4)推导sigmoid function公式(5)](这里写自定义目录标题)一、从基础概率推导贝叶斯公式，朴素贝叶斯公式条件概率公式：设A,B是两个事件，且P(B)>0,则在事件B发生的条件下，事件A发生的条件概...

2019-05-25 21:55:58 294

原创李宏毅机器学习 Machine_Learning_2019_Task2

学习任务：目录：一、理解偏差和方差二、学习误差为什么是偏差和方差而产生的，并且推导数学公式三、过拟合，欠拟合，分别对应bias和variance什么情况四、学习鞍点，复习上次任务学习的全局最优和局部最优五、学习Mini-Batch与SGD六、写出SGD和Mini-Batch的代码七、学习回归模型评价指标一、理解偏差和方差概括：算法的预测误差, 或者说泛化误差(general...

2019-05-22 21:52:25 208

原创李宏毅机器学习 Machine_Learning_2019_Task3

作业1：预测PM2.5的值在这个作业中，我们将用梯度下降方法预测PM2.5的值hw1要求：1、要求python3.5+2、只能用（1）numpy（2）scipy（3）pandas3、请用梯度下降手写线性回归4、最好的公共简单基线5、对于想加载模型而并不想运行整个训练过程的人：hw_best要求：1、要求python3.5+2、任何库都可以用3、在kaggle上获得你选择的更...

2019-05-22 21:04:36 164

原创李宏毅机器学习 Machine_Learning_2019_Task1

学习任务：目录：一、了解什么是Machine learning二、中心极限定理、正态分布、最大似然估计三、Loss Function四、泰勒展开五、L2-Norm，L1-Norm，L0-Norm一、了解什么是Machine learning机器学习简而言之就是找到一个function，根据输入得到想要的输出。一种经常引用的英文定义是：A computer program is s...

2019-05-13 21:51:40 370

原创 leetcode-冗余连接

684-冗余连接题目：在本问题中, 树指的是一个连通且无环的无向图。输入一个图，该图由一个有着N个节点 (节点值不重复1, 2, …, N) 的树及一条附加的边构成。附加的边的两个顶点包含在1到N中间，这条附加的边不属于树中已存在的边。结果图是一个以边组成的二维数组。每一个边的元素是一对[u, v] ，满足 u < v，表示连接顶点u 和v的无向图的边。返回一条可以删去的边，使得结...

2019-03-25 01:34:15 213

原创 leetcode-200

岛屿的个数题目：给定一个由 ‘1’（陆地）和 ‘0’（水）组成的的二维网格，计算岛屿的数量。一个岛被水包围，并且它是通过水平方向或垂直方向上相邻的陆地连接而成的。你可以假设网格的四个边均被水包围。示例 1:输入:11110110101100000000输出: 1示例 2:输入:11000110000010000011输出: 3思路：二位网格看作一个矩阵，遍历该矩...

2019-03-18 00:54:38 70

原创 leetcode-130

被环绕的区域题目：给定一个二维的矩阵，包含 ‘X’ 和 ‘O’（字母 O）。找到所有被 ‘X’ 围绕的区域，并将这些区域里所有的 ‘O’ 用 ‘X’ 填充。示例:X X X XX O O XX X O XX O X X运行你的函数后，矩阵变为：X X X XX X X XX X X XX O X X解释:被围绕的区间不会存在于边界上，换句话说，任何边界上的 ‘O’ 都...

2019-03-16 00:46:04 282

原创 leetcode-128

最长连续序列题目：给定一个未排序的整数数组，找出最长连续序列的长度。要求算法的时间复杂度为 O(n)。示例:输入: [100, 4, 200, 1, 3, 2]输出: 4解释: 最长连续序列是 [1, 2, 3, 4]。它的长度为 4。思路：遍历给定数组，使用hashMap去判断序列中数的两边是否连续。代码：class Solution { public int lo...

2019-03-14 00:57:04 221

原创 leetcode-消除游戏

消除游戏题目：给定一个从1 到 n 排序的整数列表。首先，从左到右，从第一个数字开始，每隔一个数字进行删除，直到列表的末尾。第二步，在剩下的数字中，从右到左，从倒数第一个数字开始，每隔一个数字进行删除，直到列表开头。我们不断重复这两步，从左到右和从右到左交替进行，直到只剩下一个数字。返回长度为 n 的列表中，最后剩下的数字。示例：输入:n = 9,1 2 3 4 5 6 7 8...

2019-03-09 22:40:03 162

原创 leetcode-617

合并二叉树题目：给定两个二叉树，想象当你将它们中的一个覆盖到另一个上时，两个二叉树的一些节点便会重叠。你需要将他们合并为一个新的二叉树。合并的规则是如果两个节点重叠，那么将他们的值相加作为节点合并后的新值，否则不为 NULL 的节点将直接作为新二叉树的节点。示例 1:输入:Tree 1 Tree 21 ...

2019-03-07 23:59:47 156

原创 leetcode-462

最少移动次数使数组元素相等题目：给定一个非空整数数组，找到使所有数组元素相等所需的最小移动数，其中每次移动可将选定的一个元素加1或减1。您可以假设数组的长度最多为10000。例如:输入:[1,2,3]输出:2说明：只有两个动作是必要的（记得每一步仅可使其中一个元素加1或减1）：[1,2,3] => [2,2,3] => [2,2,2]思路:先对给定数组...

2019-03-05 23:26:30 248

原创 leetcode-第三大的数

第三大的数题目：给定一个非空数组，返回此数组中第三大的数。如果不存在，则返回数组中最大的数。要求算法时间复杂度必须是O(n)。示例 1:输入: [3, 2, 1]输出: 1解释: 第三大的数是 1.示例 2:输入: [1, 2]输出: 2解释: 第三大的数不存在, 所以返回最大的数 2 .示例 3:输入: [2, 2, 3, 1]输出: 1解释: 注意，要求返回第三大的...

2019-03-03 21:45:34 138 1

原创 leetcode-IPO

IPO题目：假设 LeetCode 即将开始其 IPO。为了以更高的价格将股票卖给风险投资公司，LeetCode希望在 IPO 之前开展一些项目以增加其资本。由于资源有限，它只能在 IPO 之前完成最多 k 个不同的项目。帮助 LeetCode 设计完成最多 k 个不同项目后得到最大总资本的方式。给定若干个项目。对于每个项目 i，它都有一个纯利润 Pi，并且需要最小的资本 Ci 来启动相应...

2019-02-27 22:40:24 227

原创 LeetCode-my-calendar-iii

我的日程安排表题目：实现一个 MyCalendar 类来存放你的日程安排，你可以一直添加新的日程安排。MyCalendar 有一个 book(int start, int end)方法。它意味着在start到end时间内增加一个日程安排，注意，这里的时间是半开区间，即 [start, end), 实数 x 的范围为， start <= x < end。当 K 个日程安排有一些...

2019-02-25 22:21:55 143

原创 LeetCode之数字1的个数

数字1的个数题目：给定一个整数 n，计算所有小于等于 n 的非负整数中数字 1 出现的个数。示例:输入: 13输出: 6 解释: 数字 1 出现在以下数字中: 1, 10, 11, 12, 13 。思路分析：暴力法处理：从1到n遍历这n个数，找出每个数中1的个数，时间复杂度为O(nlogn)。在测试中，发现当n较大时，会出现超时。初步代码：class Solution {...

2019-02-23 20:52:16 168

原创 C++之面向对象学习

C++之面向对象目录：一、类二、对象三、继承四、重载五、对比一、类和对象1、什么是类？什么是类的成员？类用于指定对象的形式，它包含了数据表示法和用于处理数据的方法。类中的数据和方法称为类的成员。函数在一个类中被称为类的成员。2、如何去用c++定义类？类定义是以关键字 class 开头，后跟类的名称。类的主体是包含在一对花括号中。类定义后必须跟着一个分号或一个声明列表。c...

2019-01-18 00:09:06 156

原创算法梳理之XGBoost

算法梳理之XGBoost目录：一、XGBoost是什么？二、CART树三、算法原理四、损失函数五、分裂结点算法六、对缺失值处理七、优缺点八、应用场景九、sklearn参数一、XGBoost是什么？XGBoost是boosting算法家族中的一员大将。Boosting算法的思想是将许多弱分类器集成在一起形成一个强分类器。因为XGBoost是一种提升树模型，所以它是将许多树...

2018-12-24 21:34:42 765 1

原创算法梳理之GBDT

算法梳理之GBDT目录：一、集成学习概念二、个体学习器概念三、 boosting bagging四、结合策略(平均法，投票法，学习法)五、随机森林思想六、随机森林的推广七、优缺点八、sklearn参数九、应用场景...

2018-12-21 21:42:17 387

原创算法梳理之随机森林

算法梳理之随机森林目录：一、集成学习概念二、个体学习器概念三、 boosting bagging四、结合策略(平均法，投票法，学习法)五、随机森林思想六、随机森林的推广七、优缺点八、sklearn参数九、应用场景一、集成学习概念集成学习方法，就是将训练的学习器集成在一起,原理来源于PAC (Probably Approximately Correct，可能近似正确学习模型)...

2018-12-18 23:18:14 846

原创算法梳理之决策树

算法梳理之线性回归算法梳理之决策树目录：一、信息论基础（熵联合熵条件熵信息增益基尼不纯度）二、ID3算法（原理，过程，优缺点）三、C4.5（原理，过程，优缺点）四、CART分类树（原理，过程，优缺点）五、连续特征和离散特征处理六、剪枝模型评估七、 sklearn参数详解，Python绘制决策树算法梳理之决策树一、信息论基础1、信息量：信息量就是不确定度，不确...

2018-12-14 22:45:31 292

原创算法梳理之逻辑回归

目录：一、逻辑回归原理二、预测函数三、损失函数推导与求解四、正则化与模型评估五、类型不平衡问题六、sklearn参数算法梳理之逻辑回归（Logistic Regression）逻辑回归（Logistic Regression简称LR）是机器学习中很重要的一种分类模型，应用很广泛，同时逻辑回归也叫对数几率回归。一、逻辑回归原理在我们处理一个回归或者分类问题时，通常会使用逻辑回归，...

2018-12-12 19:33:28 388

原创算法梳理之线性回归

算法梳理之线性回归算法梳理之线性回归1.机器学习常用名词概念损失函数（loss function）：是用来估量模型的预测值f(x)与真实值Y的不一致程度，它是一个非负实值函数,通常使用L(Y, f(x))来表示，损失函数越小，模型的健壮性就越好。一般是针对单个样本i。代价函数（cost function）：是定义在整个训练集上面的，是所有样本误差的总和的平均，也就是损失函数总和的平...

2018-12-10 18:48:30 155 1

weixin_36466478的博客