2018年08月_Rnan-prince

原创汉诺塔的图解递归算法

汉诺塔（又称河内塔）问题是源于印度一个古老传说的益智玩具。大梵天创造世界的时候做了三根金刚石柱子，在一根...

2018-08-11 23:06:03 99992 9

原创 Java实现C4.5决策树

1.定义数据结构根据决策树的形状，我将决策树的数据结构定义如下。lastFeatureValue表示经过某个特征值的筛选到达的节点，featureName表示答案或者信息增益最大的特征。childrenNodeList表示经过这个特征的若干个值分类后得到的几个节点。public class Node{ /** * 到达此节点的特征值 */ publi...

2018-08-31 09:56:56 2356 2

原创超全的二分查找汇总（lower_bound&upper_bound）

相关内容：其余练习题1：https://www.cnblogs.com/rnanprince/p/11743414.html二分查找（倍增法）：https://mp.csdn.net/postedit/102811021其余练习题2：https://www.cnblogs.com/rnanprince/p/11761940.html————————————————二分查找二分查找...

2018-08-29 16:04:30 1702

原创翻转句子Reverse Words in String

问题：将字符串中的单词们首位调换位置。Reverse words in string. Given an input string s, reverse the string word by word.For example, given s = “the sky is blue”, return “blue is sky the”.方法一：public static Strin...

2018-08-27 19:18:38 293

转载个性化推荐系统简述

原文地址：https://zhuanlan.zhihu.com/p/32676914推荐系统的3个w和一个h1.是什么（what）推荐系统就是根据用户的历史，社交关系，兴趣点，上下文环境等信息去判断用户当前需要或潜在感兴趣的内容的一类应用。2. 为什么（why）大数据时代，信息量过载。用户从大量的信息中寻找对自己感兴趣的信息也随之变得困难；而对于信息生产者而言，让自己生产的信息...

2018-08-26 23:18:48 4055

原创数据挖掘和机器学习20个面试问题

1.什么是数据标准化，为什么要进行数据标准化？1.1定义1.2为什么要做数据归一化？数据归一化后，损失函数变量前面的系数差距已不大，图像的等高面近似圆形，在梯度下降进行求解时能较快的收敛。一些机器学习算法需要计算样本之间的距离（如欧氏距离），例如 KNN、K-means 等。如果一个特征值域范围非常大，那么距离计算就主要取决于这个特征1.3为什么要进行数据标准化？数据标准...

2018-08-26 22:46:28 2005 1

原创特征工程与表示学习：人工 vs 自动

1.相关概念正因为数据表示的重要性，机器学习一般有两种思路来提升原始数据的表达：特征学习(feature learning)，又叫表示学习(representation learning)或者表征学习，一般指的是自动学习有用的数据特征特征工程(feature engineering)，主要指对于数据的人为处理提取，有时候也代指“洗数据”不难看出，两者的主要区别在于前者是“学习的过程”...

2018-08-26 17:57:40 3498

原创 GBDT算法原理

一、基础知识1.泰勒级数展开 2.梯度下降法 3.牛顿法 4.从参数空间到函数空间二、GBDT1 .DT：回归树 Regression Decision Tree 5.GBDT 适用范围 2. GB：梯度迭代 Gradient Boosting ...

2018-08-26 12:36:04 10996

原创 Xgboost通俗理解

1 xgboost树的定义2 xgboost目标函数 ---------2.1 模型学习与训练误差 2.2 树的复杂度3 打分函数计算 ----------3.1 分裂节点 3.2 缺失值处理4 XGBoost的特性5 Boosted ...

2018-08-26 12:19:12 6104

原创推荐系统中的矩阵分解总结

最近学习矩阵分解，但是学了好多种类，都乱了，看了这篇文章，系统性的总结了矩阵分解，感觉很棒，故分享如下:前言推荐系统中最为主流与经典的技术之一是协同过滤技术（Collaborative Filtering），它是基于这样的假设：用户如果在过去对某些项目产生过兴趣，那么将来他很可能依然对其保持热忱。其中协同过滤技术又可根据是否采用了机器学习思想建模的不同划分为基于内存的协同过滤（Memory...

2018-08-26 12:07:47 39720 4

原创 LDA线性判别分析

问题之前我们讨论的 PCA降维，对样本数据来言，可以是没有类别标签 y 的。如果我们做回归时，如果特征太多，那么会产生不相关特征引入、过度拟合等问题。我们可以使用PCA 来降维，但 PCA 没有将类别标签考虑进去，属于无监督的。假设我们对一张 100*100 像素的图片做人脸识别，每个像素是一个特征，那么会有 10000 个特征，而对应的类别标签y仅仅是 0/1 值， 1 代表是人脸...

2018-08-26 10:32:27 4308 2

原创 SVD奇异值分解学习总结

1.原理SVD的基本公式：U和V我们都求出来了，现在就剩下奇异值矩阵∑没有求出了。由于∑除了对角线上是奇异值其他位置都是0，那我们只需要求出每个奇异值σ就可以了。我们注意到:这样我们可以求出我们的每个奇异值，进而求出奇异值矩阵∑。上面还有一个问题没有讲，就是我们说ATA的特征向量组成的就是我们SVD中的V矩阵，而AAT的特征向量组成的就是...

2018-08-26 10:18:59 2822

原创 PCA主成分分析学习总结

看了好多资料，都扯犊子，看不太懂，故总结如下：首先考虑一个问题：对于正交属性空间中的样本点，如何用一个超平面（直线的高维推广）对所有样本进行恰当的表达？可以想到，若存在这样的超平面，那么它大概具有这样的性质：1两大依据最大可分性：样本点在这个超平面上的投影能尽可能的分开最近重构性：样本点到这个超平面的距离足够近目标：希望将这m个数据的维度从n维降到n`维，希望这m...

2018-08-26 10:08:03 2755

原创 LeetCode-矩阵中最大矩形 Maximal Rectangle（python）

题目：在一个M * N的矩阵中，所有的元素只有0和1，找出只包含1的最大矩形。例如：图中是一个４　×　６的矩形，画出红色的是我们要找到的区域。https://blog.csdn.net/jiyanfeng1/article/details/8068676查找最大矩形，所以它一定是以某个行元素开始的，将要找到的某个矩形就转换成一某一个行开始的最大矩形Histogram问题...

2018-08-25 09:17:11 3252 1

原创判断一个自然数是否是某个数的平方，不能使用开方运算

方法1：遍历从1到N的数字，求取平方并和N进行比较。如果平方小于N，则继续遍历；如果等于N，则成功退出；如果大于N，则失败退出。复杂度为O(n^0.5)。// 方法1：遍历从1到N的数字，求取平方并和N进行比较。复杂度为O(n^0.5)。 public static boolean isSquare1(int num) { if (num == 0 || num ==...

2018-08-22 21:37:44 2589

原创数独相关题目汇总-Sudoku

Valid Sudoku数独定义：1.每一行有九个1-9不同数字2.每一列也有九个1-9不同数字3.每九个方格也有九个1-9不同数字1.判断数独是否有效-描述Determine if a Sudoku is valid, according to: Sudoku Puzzles - The RulesThe Sudoku board could be par...

2018-08-22 09:06:02 5790

原创 EM算法推导

参考《统计学习方法》-李航看了好多帖子，都是自己明白，读不明白，很是难受！！！！看了李航的书明白了，与大家分享！！！接下来这句，我找了好久，其余的人都不写，很是来气，，，，...

2018-08-21 20:40:28 165

原创贝壳2019笔试

1.教师占用//输入样例2//4//3 10//20 30//1 3//1 39//输出样例2//1//4//输入样例3//3//1 5//2 6//3 7//输出样例3//0//样例解释//样例1中删除 1，2 ，3社团中的任何一个都可以使得另外两个社团无冲突的使用教室//样例2中删除4以后【1，3】【3，10】【20，30】无冲突，若删除1，2，3...

2018-08-19 13:47:02 3479 2

原创网易2019笔试题

1.苹果分堆计算累加小组成员数，结合二分查找，复杂度O( min(n, mlogn) )package wangyi123;import java.util.Scanner;public class groupNum { public static void main(String[] args) { Scanner sc = new Scanner(System....

2018-08-19 13:14:52 8320

原创 2018链家笔试题

一、一个含有n个元素的数组，找出m个数使其和为K 参考：打印和为sum的组合，动规法+DFS+迭代法https://blog.csdn.net/qq_19446965/article/details/81775702动态规划：只能找出一组，O(n^2)找出所有参考上述；链接// 打印和为n的组合，动规法，O(n^2) public static List<Integ...

2018-08-17 20:22:08 2075

原创打印和为sum的组合，动规法+DFS+迭代法

一.判断是否有和为sum的组合，动规法，O(n^2)// 判断是否有和为n的组合，动规法，O(n^2)public static boolean findSum(int[] a, int n) { boolean[] dp = new boolean[n + 1]; for (int i = 0; i < a.length; i++) { if (a[i] >...

2018-08-17 12:46:11 802 1

转载 KKT条件总结

最近学习的时候用到了最优化理论，但是我没有多少这方面的理论基础。于是翻了很多大神的博客把容易理解的内容记载到这篇博客中。因此这是篇汇总博客，不算是全部原创，但是基础理论，应该也都差不多吧。因才疏学浅，有纰漏的地方恳请指出。 KKT条件是解决最优化问题的时用到的一种方法。我们这里提到的最优化问题通常是指对于给定的某一函数，求其在指定作用域上的全局最小值。提到KKT条...

2018-08-16 15:33:44 10369

转载 2018校招笔试真题汇总（java/C++）

科大讯飞：2018秋招笔试科大讯飞java笔试试题https://www.nowcoder.com/discuss/67684?type=2&order=3&pos=13&page=0锐捷：2018秋招锐捷笔试试题https://www.nowcoder.com/discuss/67760?type=2&order=3&pos=8&pag...

2018-08-16 10:17:42 5110

原创途牛2019校招笔试-大数据

【不定项选择】本套试卷共一个部分，共20题，每题5分，总分100分。每题至少有1个正确选项，多选、少选或错选不得分。1.默认知识点多选题一般5分得分0分MySQL 的binlog 日志格式不包含哪个A: A. StatementB: B. rowC: C. mixedD: D. mixedlevel正确答案：C2.默认知识点多选题一般5分得分5分下面对HBase的...

2018-08-15 18:40:23 2568 2

原创最长子序列&最长子串的题型汇总

1.最长公共子序列的长度题目：对于两个字符串，请设计一个高效算法，求他们的最长公共子序列的长度，这里的最长公共子序列定义为有两个序列U1,U2,U3...Un和V1,V2,V3...Vn,其中Ui&ltUi+1，Vi&ltVi+1。且A[Ui] == B[Vi]。给定两个字符串A和B，同时给定两个串的长度n和m，请返回最长公共子序列的长度。保证两串长度均小于等于300。...

2018-08-14 16:23:02 4306 2

转载 MySQL中的连接查询

联接的可分为以下几类：内联接、外联接（左外联接、右外联接和全外联接）和交叉联接1）内联接 — 比较运算符（包含：相等联接、不相等联接和自然联接）2）外联接 — 在FROM子句中指定外联接左外联接（left Join）— 结果集为左表的所有行，无论在右表是否得到匹配右外联接（right Join）— 结果集为右表的所有行全外联接（full Join）— 结果集为...

2018-08-14 12:34:35 504

原创决策树、RF、xgboost如何处理缺失值？判断特征重要性？缺失值不敏感？

1.随机森林模型怎么处理异常值?隨机森:林是已故统计学家Leo Breiman提出的，和gradient boosted tree—样，它的基模型是决策树。在介绍RF时，Breiman就提出两种解决缺失值的方去 (Random forests - classification description):方法1(快速简草但效果差)：把数值型变畺(numerical variables)中...

2018-08-13 21:47:03 22400 10

转载 CRF条件随机场与HMM，MEMM比较

CRF简介ConditionalRandomField：条件随机场，一种机器学习技术（模型）CRF由John Lafferty最早用于NLP技术领域，其在NLP技术领域中主要用于文本标注，并有多种应用场景，例如：分词（标注字的词位信息，由字构词）词性标注（标注分词的词性，例如：名词，动词，助词）命名实体识别（识别人名，地名，机构名，商品名等具有一定内在规律的实体名词）本文...

2018-08-13 17:07:07 1411

转载 JAVA多线程实现的四种方式

原文地址：https://www.cnblogs.com/felixzh/p/6036074.htmlJava多线程实现方式主要有四种：继承Thread类、实现Runnable接口、实现Callable接口通过FutureTask包装器来创建Thread线程、使用ExecutorService、Callable、Future实现有返回结果的多线程。其中前两种方式线程执行完后都没有返回值，后...

2018-08-13 09:26:18 149

转载 25个JAVA 机器学习工具包

原文地址：https://blog.csdn.net/zhangjianjaEE/article/details/78584956本列表总结了25个Java机器学习工具&库： Weka集成了数据挖掘工作的机器学习算法。这些算法可以直接应用于一个数据集上或者你可以自己编写代码来调用。Weka包括一系列的工具，如数据预处理、分类、回归、聚类、关联规则以及可视化。 Massi...

2018-08-13 09:08:18 336

转载机器学习算法岗常见笔试面试题整理

数据库中的主键、索引和外键（数据分析岗经常问）决策树ID3和C4.5的差别？各自优点？ Boost算法 CART（回归树用平方误差最小化准则，分类树用基尼指数最小化准则） GBDT与随机森林算法的原理以及区别。优化算法中常遇到的KKT条件？作用是？最近邻算法KNN（分类与回归） L1和L2函数？L1和L2正则项的比较，如何解决 L1 求导困难？ L1正则为何可把系数压缩成0，...

2018-08-13 08:52:28 628

转载华为公司面试新员工的有关计算机网络的题目和答案

一、华为公司面试新员工的有关计算机网络的题目和答案 RFC1918文件规定了保留作为局域网使用的私有地址： 10.0.0.0 - 10.255.255.255 (10/8 prefix) 172.16.0.0 - 172.31.255.255 ...

2018-08-13 08:31:24 11568

原创 LeetCode-最长递增子序列&和最大的递增子序列

1.求最长递增子序列长度方法一：动态规划O（n2）public static int findLongest2(int[] A) { int n = A.length; int[] f = new int[n];// 用于存放f(i)值； f[0] = 1;// 以第a1为末元素的最长递增子序列长度为1； int maxLen = Integer.MIN_VALUE...

2018-08-12 20:21:47 3859 9

原创推荐算法种类总结

（一）协同过滤（CF）大致可分为：基于邻域的推荐、基于模型的推荐1.基于邻域的协同过滤有：基于用户的协同过滤：与用户A相似的用户B，推荐用户A喜欢的物品给B 基于物品的协同过滤：推荐与用户A历史上喜欢的物品相近的物品2.基于模型的推荐：使用部分机器学习算法，找出用户与项的相互作用模型，从而找出数据中的特定模式。其中之前研究的NMF模型就是其中的一种，NMF属于基于模型的协同过滤算法...

2018-08-11 22:03:19 7837

原创 RF与GBDT之间的区别与联系？

1）相同点：都是由多棵树组成，最终的结果都是由多棵树一起决定。2）不同点：随机森林采用bagging，而GBDT采用boosting 组成随机森林的树可以分类树也可以是回归树，而GBDT只由回归树组成组成随机森林的树可以并行生成，而GBDT是串行生成随机森林的结果是多数表决表决的，而GBDT则是多棵树累加之和随机森林对异常值不敏感，而GBDT对异常值比较敏感随机森林是减...

2018-08-11 22:00:06 1612

原创各种优化算法及其优缺点？

1）梯度下降：每次使用全部数据集进行训练优点：得到的是最优解缺点：运行速度慢，内存可能不够2）随机梯度下降SGM在随机梯度下降法中每次仅根据一个样本对模型中的参数进行调整优点：可以一定程度上解决局部最优解的问题缺点：容易震荡，收敛速度较慢3）批量梯度下降BGM优点：容易陷入局部最优解缺点：收敛速度较快4）mini_batch梯度下降假设训练集中的样本的个...

2018-08-11 21:58:21 9248

原创关联分析中的支持度、置信度和提升度

一般使用以下三个指标来衡量关联性：1.支持度（Support）支持度表示项集{X,Y}在总项集里出现的概率。表示A和B同时在总数I 中发生的概率，公式为： Support(X→Y) = P(X,Y) / P(I) = P(X∩Y) / P(I) = num(X∩Y) / num(I) 其中，I表示总事务集。num()表示求事务集里特定项集出现的次数...

2018-08-09 21:20:41 31427

原创基数排序、桶排序和计数排序的区别

1.桶排序(Bucket Sort)基本思路是：将待排序元素划分到不同的痛。先扫描一遍序列求出最大值 maxV 和最小值 minV ，设桶的个数为 k ，则把区间 [minV, maxV] 均匀划分成 k 个区间，每个区间就是一个桶。将序列中的元素分配到各自的桶。对每个桶内的元素进行排序。可以选择任意一种排序算法。将各个桶中的元素合并成一个大的有序序列。假设数据是均匀分...

2018-08-08 23:51:17 24107 8

原创超全的回文题汇总-Palindrome

最近做了好多回文类题目，一连串发现了好多，做了如下汇总：1.判断单链表是否是回文 - Palindrome Linked ListTime Complexity: O(n), Space Complexity: O(n) 使用快慢指针，每次快指针走两步，慢指针走一步。同时还要用栈，每次慢指针走一步，都把值存入栈中。等快指针走完时，链表的前半段都存入栈中了。最后慢指针继续往前走...

2018-08-08 19:03:31 685 1

原创京东2016笔试题【分苹果】-简单的公式法

看了好多解法，但是就是没有公式法，所以自己写了一个：题目描述 :果园里有一堆苹果，一共n头(n大于1小于9)熊来分，第一头为小东，它把苹果均分n份后，多出了一个，它扔掉了这一个，拿走了自己的一份苹果，接着第二头熊重复这一过程，即先均分n份，扔掉一个然后拿走一份，以此类推直到最后一头熊都是这样(最后一头熊扔掉后可以拿走0个，也算是n份均分)。问最初这堆苹果最少有多少个。给定一个整数...

2018-08-07 17:17:49 405

空空如也

空空如也