Jesse508-CSDN博客

原创 Java-刷题-有效括号

题目链接：https://leetcode-cn.com/problems/valid-parentheses/使用语言：Javaclass Solution { public boolean isValid(String s) { Map<Character,Character> mp=new HashMap<>(); mp.p...

2019-08-04 17:02:39 170

原创 Java-刷题-栈

题目链接：https://leetcode-cn.com/problems/min-stack/使用语言：Javaclass MinStack { Stack<Integer> st = new Stack<Integer>(); Stack<Integer> st2 = new Stack<Integer>(); /**...

2019-08-04 16:50:16 169

原创 leetcode刷题（六）

图实现有向图、无向图、有权图、无权图的邻接矩阵和邻接表表示方法实现图的深度优先搜索、广度优先搜索实现 Dijkstra 算法、A* 算法实现拓扑排序的 Kahn 算法、DFS 算法对应的 LeetCode 练习题目录：1，leetcode-200；2，leetcode-363。1，Number of Islands（岛屿的个数）：英文版：https://leetcode.com...

2019-04-20 20:07:05 139

原创 leetcode刷题（五）

二叉树：Invert Binary Tree（翻转二叉树）英文版：https://leetcode.com/problems/invert-binary-tree/中文版：https://leetcode-cn.com/problems/invert-binary-tree/# Definition for a binary tree node.# class TreeNode:# ...

2019-04-18 09:53:26 133

原创 leetcode系列（四）

1.两数之和(1)https://leetcode-cn.com/problems/two-sum/class Solution: def twoSum(self, nums, target): d = {} for x in range(len(nums)): if nums[x] in d: ...

2019-04-17 17:52:19 141

原创达观杯竞赛（六）

1，网络搜索：stacking 就是当用初始训练数据学习出若干个基学习器后，将这几个学习器的预测结果作为新的训练集，来学习一个新的学习器。在机器学习中，我们说的调参里的参数指的是超参数，即对于模型的整体规划具有重要意义的指标：例如支持向量机中的乘法因子C（用于权衡经验风险和模型复杂度），当支持向量机核函数是为径向基RBF核函数，对应的钟型函数的宽度gamma就是核函数对应的超参数。只有当这...

2019-04-16 10:33:02 172

思路：LightGBM，LightGBM的起源，Histogram VS pre-sorted，leaf-wise VS level-wise，特征并行和数据并行，顺序访问梯度，支持类别特征，应用场景，sklearn参数，CatBoost(了解)。1，算法简介：LightGBM是个快速的，分布式的，高性能的基于决策树算法的梯度提升框架。可用于排序，分类，回归以及很多其他的机器学习任务中。在竞...

2019-04-13 22:38:26 264

原创 LeetCode刷题之二分法

一），二分法思想：1，Sqrt(x) （x 的平方根）：英文版：https://leetcode.com/problems/sqrtx/中文版：https://leetcode-cn.com/problems/sqrtx/@TOCclass Solution: def mySqrt(self, x: int) -> int: if x == 0: ...

2019-04-13 15:58:13 241

原创 leetcode刷题系列（二）

1，数组： Three Sum（求三数之和）英文版：https://leetcode.com/problems/3sum/中文版：https://leetcode-cn.com/problems/3sum/Majority Element（求众数）英文版：https://leetcode.com/problems/majority-element/中文版：https://leetcode-cn....

2019-04-11 16:23:06 420

原创 XGB原理及sklearn参数

1，XGBoost：算法思想就是不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个树，其实是学习一个新函数，去拟合上次预测的残差。当我们训练完成得到k棵树，我们要预测一个样本的分数，其实就是根据这个样本的特征，在每棵树中会落到对应的一个叶子节点，每个叶子节点就对应一个分数，最后只需要将每棵树对应的分数加起来就是该样本的预测值。注：w_q(x)为叶子节点q的分数，f(x)为其中一棵回归...

2019-04-10 22:44:52 2207

原创达观杯数据竞赛系列（四）

算法原理：1，逻辑回归：逻辑回归就是在用回归的办法做分类任务,那有什么办法可以做到呢,此时我们就先考虑最简单的二分类,结果是正例或者负例的任务.按照多元线性回归的思路,我们可以先对这个任务进行线性回归,学习出这个事情结果的规律,比如根据人的饮食,作息,工作和生存环境等条件预测一个人"有"或者"没有"得恶性肿瘤,可以先通过回归任务来预测人体内肿瘤的大小,取一个平均值作为阈值,假如平均值为y,...

2019-04-10 21:51:25 197

原创达观文本竞赛系列(三）

1，word2vec词向量原理：word2vec是google在2013年推出的一个NLP工具，它的特点是将所有的词向量化，这样词与词之间就可以定量的去度量他们之间的关系，挖掘词之间的联系。虽然源码是开源的，但是谷歌的代码库国内无法访问，因此本文的讲解word2vec原理以Github上的word2vec代码为准。本文关注于word2vec的基础知识。用词向量来表示词并不是word2vec的首...

2019-04-10 15:07:47 205

原创统计学基础（四）

1，线性回归：线性回归是利用数理统计中回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法，运用十分广泛。其表达形式为y = w’x+e，e为误差服从均值为0的正态分布。 [1]回归分析中，只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性...

2019-04-10 09:34:15 646

原创机器学习：集成学习之GBDT

相关知识模块：前向分布算法，负梯度拟合，损失函数，回归，二分类，多分类，正则化，优缺点，sklearn参数，应用场景。1，算法思想：GBDT(Gradient Boosting Decision Tree) 又叫 MART（Multiple Additive Regression Tree)，是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。它在被提出之初就和SV...

2019-04-07 19:38:58 193

原创达观杯数据竞赛系列（二）

1，TF-IDF：TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用，作为...

2019-04-06 21:40:32 265

原创统计学基础（三）：假设检验

1，假设检验的定义：假设检验也叫显著性检验，是以小概率反证法的逻辑推理，判断假设是否成立的统计方法，它首先假设样本对应的总体参数（或分布）与某个已知总体参数（或分布）相同，然后根据统计量的分布规律来分析样本数据，利用样本信息判断是否支持这种假设，并对检验假设做出取舍抉择，做出的结论是概率性的，不是绝对的肯定或否定。情景：掷硬币扔了两次，都是“花”朝上，概率为0.5 * 0.5 ；继续扔...

2019-04-06 10:56:37 1485

原创达观杯数据竞赛系列（一）

达观杯数据竞赛系列（一）1，下载数据，读取数据，观察数据：压缩的数据近1个G，解压后的数据也是2.6个G，分为两个csv文件。数据包含2个csv文件：》train_set.csv：此数据集用于训练模型，每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列：第一列是文章的索引(id)，第二列是文章正文在“字”级别上的表示，即字符相隔正文(article)；第三列是在“...

2019-04-05 09:56:29 513 2

原创统计学基础二

1，中心极限定理，大数定律：大数定律就以严格的数学形式表现了随机现象的一个性质，平稳结果的稳定性（或者说频率的稳定性）；大数定律从理论上解决：用频率近似代替概率的问题，用样本均值近似代替理论均值。中心极限定理：当样本量N逐渐趋于无穷大时，N个抽样样本的均值的频数逐渐趋于正态分布，其对原总体的分布不做任何要求，意味着无论总体是什么分布，其抽样样本的均值的频数的分布都随着抽样数的增多而趋于正...

2019-04-05 08:51:16 240

原创随机森林原理及实践

思路：集成学习概念，个体学习器概念，boosting bagging，结合策略(平均法，投票法，学习法)，随机森林思想，随机森林的推广，优缺点，sklearn参数，应用场景。第一部分：前奏1，集成学习：bagging、boosting；结合策略（平均法，投票法，学习法等）对于训练集数据，通过训练若干个个体学习器，通过一定的结合策略，就可以最终形成一个强学习器，以达到博采众长的目的。1）...

2019-04-04 20:54:53 1505

原创统计学基础（一）

目录：1，统计学定义2，样本3，随机变量4，概率密度函数5，二项分布6，伯努利分布7，大数定律，中心极限定理8，正态分布（高斯分布） 1，统计学定义：本科教材中对统计学的定义为：收集、处理、分析、解释数据并从中得出结论的科学。数据分析的方法可分为描述统计和推断统计。描述统计学 descriptive statistics 假设有一个数据集，在不告诉别人所有数据的情况...

2019-04-04 12:39:09 294