- 博客(82)
- 收藏
- 关注
转载 找出3个数中不为-1的最小数
假设有3个数,它们的取值都可能为-1,现在要求找出其中不为-1的最小的数。本来我一开始的想法是利用8次if判断,知道我看到一位老师如下去实现。int taaIndex = findStopCodon(dna, startIndex, "TAA");int tagIndex = findStopCodon(dna, startIndex, "TAG");int tgaIndex = ...
2019-09-22 15:57:00 179
转载 马拉车算法
马拉车算法用于寻找字符串中的最长回文子串。javaclass ManacherAlgo { String longestPalindrome(String s) { // 填充 String newS = fillStr(s); // center是中心,right是中心的最远覆盖范围,max_center是最长回文字串的中心...
2019-09-20 11:52:00 172
转载 偏差-方差分解
当训练得到一个模型\(f\)时,我们希望\(f\)的泛化能力足够强,这样也代表它对于新的样本有比较好的预测能力。我们会通过实验检验\(f\)的泛化误差,那它的泛化误差到底是由哪几部分贡献?这里先给出结论:噪声、偏差与方差。定义训练模型的前提是我们能拿到一个数据集\(D\),它其中包含多个样本,来自同一个分布。但是\(D\)不可能包含这个分布上的所有样本,也就是说\(D\)...
2019-08-16 11:57:00 525
转载 决策树如何防止过拟合
决策树在长成的过程中极易容易出现过拟合的情况,导致泛化能力低。主要有两种手段可以用于防止过拟合。提前停止Early Stopping,在完全长成以前停止,以防止过拟合。主要有以下3种方式:限制树的高度,可以利用交叉验证选择利用分类指标,如果下一次切分没有降低误差,则停止切分限制树的节点个数,比如某个节点小于100个样本,停止对该节点切分后剪枝提前停止的不足“提前停止”...
2019-08-06 12:43:00 1563
转载 可视化数据集两个类别变量的关系
需求:比如我有一个数据集,然后其中两个初始维度都是类别变量。我希望以可视化的方式呈现这两个变量对于最终分类结果的影响。利用pandas获取DataFrame利用pandas.crosstab来构建一个只关于这2个类别变量的新的DataFrame使用pandas的画图函数代码train_df = pd.read_csv('train.csv')train_pos_df = ...
2019-07-25 14:34:00 591
转载 拟合多项式演示overfitting
# 预先导入库from sklearn.linear_model import LinearRegressionfrom sklearn.preprocessing import PolynomialFeaturesimport matplotlib.pyplot as pltimport numpy as npfrom scipy import interpolate在本...
2019-07-24 00:02:00 158
转载 Spark Week1 HomeWork
package wikipediaimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.SparkContext._import org.apache.spark.rdd.RDDimport org.apache.log4j.{Level,Log...
2019-07-23 09:22:00 191
转载 Spark第一周
Why Scala在数据集不是很大的时候,开发人员可以使用python、R、MATLAB等语言在单机上处理数据集。但是在大数据时代,数据集少说都是TB、PB级别,此时便需要分布式地处理。相较于上述语言,Scala有着现成的框架即Spark能分布式地处理问题,Scala中有着丰富的Spark API,开发时只需要进行函数的编写就能轻松解决各种需求。虽然其他语言也有Spark的API,比如...
2019-07-20 07:55:00 159
转载 Spark + sbt + IDEA + HelloWorld + MacOS
构建项目步骤首先要安装好scala、sbt、spark,并且要知道对应的版本sbt版本可以在sbt命令行中使用sbtVersion查看spark-shell可以知晓机器上spark以及对应的scala的版本IDEA中plugin安装scala插件pass修改配置文件改变IDEA下sbt依赖下载速度慢的问题参考官网:具体做法:vi ~/.sbt/reposi...
2019-07-18 15:35:00 149
转载 CentOS下Hive搭建
目录 1. 前言 2. MySQL安装 2.1 更换yum下载源 2.2 开启MySQL远程登录 3. Hive安装 3.1 下载Hive 3.2 安装Hive和更改配置文件 4. MyS...
2019-06-19 16:12:00 118
转载 36. 有效的数独
题目链接最直接的解法应该是对9*9的数组进行3次遍历,分别判断是否符合要求。下面是代码:class Solution {public: bool isValidSudoku(vector<vector<char>>& board) { int i, j; // 先判断行是否符合要求 for (i...
2019-06-19 08:39:00 63
转载 HADOOP依赖
<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http...
2019-06-13 14:32:00 728
转载 判别数字图片能否「一笔完成」
每张给定的数字图片只有2种像素值,即0和255,如下所示:现给定全黑的一张背景图,用一支笔可以连续地在上下左右斜对角共8个方向移动,可以允许重复地经过一处。笔经过处像素值会变为0,即变成白色。如果这样操作后能得到一张如上所示的数字图片,则称该数字图片可以「一笔完成」。下面是不能「一笔完成」的数字图片例子:因为要完成“6”中间部分的「白圈」,必须要把「笔」拿起来放到对应的位置...
2019-06-01 23:56:00 146
转载 【网易微专业】图表绘制工具Matplotlib
01 与图片的交互方式设置这一小节简要介绍一下Matplotlib的交互方式import pandas as pdimport numpy as npimport matplotlib.pyplot as pltnp.random.seed(111)X = np.random.rand(1000)y = np.random.rand(1000)# 图表窗口1 → plt....
2019-05-27 20:23:00 107
转载 【18.065】Lecture2
由于这一课的教材放出来了,所以直接将整个pdf放上来。转载于:https://www.cnblogs.com/shayue/p/18065Lecture2.html
2019-05-26 17:20:00 119
转载 【18.065】Lecture1
由于这一课的教材放出来了,所以直接将整个pdf放上来。转载于:https://www.cnblogs.com/shayue/p/Lecture1.html
2019-05-25 00:10:00 135
转载 18.065自学安排
引言「人的一生中,最光辉的一天并非是功成名就那天,而是从悲叹与绝望中产生对人生的挑战,以勇敢迈向意志那天。」福楼拜最近找实习的过程中遇到很多挫折,但是我很感谢珍珍能在我最失意的时候告诉我这个道理。课程简介计划完成的课程是《Matrix Methods in Data Analysis, Signal Processing, and Machine Learning》,MIT Co...
2019-05-23 12:29:00 322
转载 AdaBoost算法
本篇笔记是针对二分类的AdaBoost算法总结。主要参考林轩田老师的《机器学习技法》课程,以及李航博士的《统计学习方法》第二版。没错,第二版已经出版了,快去买啊!符号声明\(D = \{(x_1, y_1), (x_2, y_2), (x_3, y_3), \cdots, (x_N, y_N)\}\) - 用于训练的数据集,\(x_n\)为实例,\(y_n\)为对应的标签{-1, ...
2019-05-15 21:31:00 133
转载 学习资料
PCA和LDA - 百面机器学习,统计学习方法(第二版),李政轩Linear Discriminant AnalysisSVM - 林轩田机器学习技法,统计学习方法(第二版)Kernel Trick - 李政轩Adaboost - 林轩田机器学习技法,统计学习方法(第二版)决策树 - 统计学习方法(第二版)转载于:https://www.cnblogs.com/shay...
2019-05-14 11:47:00 88
转载 Trie树
https://hihocoder.com/problemset/problem/1014代码#include <iostream>#include <vector>#include <string>using namespace std;struct TrieTree{ vector<TrieTree*> subt...
2019-04-30 07:28:00 51
转载 日常
目录 专题一:挑战字符串 题目1:无重复字符的最长子串 题目2:简化路径 题目3:复原IP地址 专题二:数组与排序 题目1:三数之和 题目2:岛屿的最大面积 题目3:搜索旋转排序数组 题目4...
2019-04-11 12:05:00 193
转载 Kmeans
算法梗概The k-means algorithm is one of the simplest yet most popular machine learning algorithms. It takes in the data points and the number of clusters (k) as input.Next, it randomly plots k di...
2019-04-03 00:28:00 69
转载 【leet-code】135. 加油站
题目描述在一条环路上有 N 个加油站,其中第 i 个加油站有汽油 gas[i] 升。你有一辆油箱容量无限的的汽车,从第 i 个加油站开往第 i+1 个加油站需要消耗汽油 cost[i] 升。你从其中的一个加油站出发,开始时油箱为空。如果你可以绕环路行驶一周,则返回出发时加油站的编号,否则返回 -1。说明:如果题目有解,该答案即为唯一答案。输入数组均为非空数组,且长度相同。输...
2019-04-02 14:17:00 101
转载 Mac CLion下OpenGL环境配置
1. 配置glew和glfw终端下运行下面两句,安装完后在/usr/local/Cellar/下可以找到对应的目录。brew install glewbrew install glfw3效果如下所示:2. 配置gladglad是为了简化开发而设计的,不是必须的,是一个function loader,在glad文件生成网站配置好,如下所示:在右下角点击g...
2019-03-28 17:10:00 657
转载 支持向量机数学推导
引言SVM的数学推导真的是我一生的痛,看看觉得很懂,但是过了3秒,就在纠结,为什么可以这样换算?今天早上在看集成学习的时候,讲课的老师一直说SVM、SVM、SVM。。。嗯,没错,我又开始回想SVM的数学推导过程,然后,我的一个早上就这样没了。这次趁着刚看完印象深刻,我想将刚厘清的思路写下来。仅包括如何推出最优化问题,后面的推导我打算等看完凸优化课程再记录,推导过程参考林轩田老师教授的...
2019-03-18 15:40:00 106
转载 【小米机试】厨艺大赛奖金
题目描述小米食堂每年都会举办一次厨艺大赛,假设参赛的厨师一共有n位(n < 1000),比赛结束后没有公布评分,但是站在领奖台上的一排厨师中每位厨师都能看到与自己相邻的厨师(左或者右)里评分比自己低(看不到比自己分数高的人的分数)的评分。比赛结束之后要发奖金,以1K为单位,每位厨师至少会发1K的奖金,另外,如果一个厨师发现自己的奖金没有高于比自己评分低的厨师的奖金,就会不满意,作...
2019-03-16 11:43:00 111
转载 【线性代数】正交矩阵和格兰姆-施密特正交化
引言一组线性无关的向量可以张成一个向量子空间,比如向量\(\overrightarrow{e_1} = \left[ \begin{matrix} 1 \\ 2 \end{matrix} \right]\)和\(\overrightarrow{e_2} = \left[ \begin{matrix} 1 \\ 0 \end{matrix} \right]\)。它们线性无关,并且能张成一...
2019-03-15 22:21:00 1602
转载 【leet-code】542. 01 矩阵
题目描述给定一个由 0 和 1 组成的矩阵,找出每个元素到最近的 0 的距离。两个相邻元素间的距离为 1 。示例 1:输入:0 0 00 1 00 0 0输出:0 0 00 1 00 0 0示例 2:输入:0 0 00 1 01 1 1输出:0 0 00 1 01 2 1注意:给定矩阵的元素个数不超过 10000。给定矩阵中至少有一个元素是...
2019-03-15 13:20:00 116
转载 逻辑回归损失函数推导
引言假设今天希望将机器学习应用到医院中去,比如对于某一个患了心脏病的病人,求他3个月之后病危的概率。那么我们该选择哪一个模型,或者可以尝试已经学过的线性回归?但是很遗憾的是,如果我们要利用线性回归,我们收集到的资料中应当包含病人3个月后病危的概率。这在实际中是很难得到的,因为对于一个患病的病人,你只能知道他3个月后到底是病危或者存活。所以线性回归并不适用这种场景。logistic函...
2019-03-12 23:28:00 240
转载 线性回归损失函数求解
引言上一篇笔记中已经记录了,如何对一个无解的线性方程组\(Ax=b\)求近似解。在这里,我们先来回顾两个知识点:如何判断一个线性方程组无解:如果拿上面那个方程组\(Ax=b\)举例,那就是向量\(b\)不在矩阵A对应的列空间中,至于列空间的概念,可以参考四个基本子空间那篇笔记如何对无解的方程组求近似解:根据上一篇笔记如何寻找一个投影矩阵可以有这么一个思路,将向量\(b\)往矩阵\...
2019-03-11 23:05:00 1356
转载 【线性代数】四个基本子空间
矩阵A一共对应着4个基本子空间,分别是列空间、行空间、零空间以及左零空间行空间设一m行n列实元素矩阵为\(A\)(mxn),则其行空间(Row Space)是由矩阵A的所有行向量所生成的\(R^n\)上的子空间,记作\(C(A^{\mathrm{T}})\)或\(R(A)\)。其中,矩阵\(A^{\mathrm{T}}\)是矩阵A的转置。矩阵A的行空间中的所有向量均为矩阵A的行向量...
2019-03-10 00:20:00 1670
转载 【线性代数】为什么点积为零可以用来判别向量是否正交
引言一般的课本上都会告诉我们判断两个向量是否正交可以通过它们的点积为0判断,那么到底为什么?向量一个向量是有方向和长度的,我们记向量\(\overrightarrow{a}\)的长度为\(\left\|a\right\|\),也叫向量的长度为模。那么向量的模是怎么计算的:\[\left\|a\right\| = \sqrt{\sum_{i=1}^{n}x_i^2}, \ 向量一...
2019-03-09 16:20:00 7219
转载 【线性代数】如何寻找一个投影矩阵
引言想一下,在什么情况下可能需要将一个向量往一个子空间投影。在MIT的线代课程中,Gilbert教授给出了一种场景:即我们想要求解\(Ax=b\),但是\(b\)不在\(A\)的列空间中,此时我们希望在\(A\)的列空间中找一个离\(\overrightarrow{b}\)最近的向量\(\overrightarrow{f}\),求解\(A\hat{x}=f\),借由\(\hat{x}\...
2019-03-09 12:07:00 1181
转载 【hihoCoder】#1133 : 二分·二分查找之k小数
题目描述在上一回里我们知道Nettle在玩《艦これ》,Nettle的镇守府有很多船位,但船位再多也是有限的。Nettle通过捞船又出了一艘稀有的船,但是已有的N(1≤N≤1,000,000)个船位都已经有船了。所以Nettle不得不把其中一艘船拆掉来让位给新的船。Nettle思考了很久,决定随机选择一个k,然后拆掉稀有度第k小的船。 已知每一艘船都有自己的稀有度,Nettle现在把所有...
2019-03-05 22:04:00 106
转载 [LeetCode解题报告] 502. IPO
题目描述假设 LeetCode 即将开始其 IPO。为了以更高的价格将股票卖给风险投资公司,LeetCode希望在 IPO 之前开展一些项目以增加其资本。 由于资源有限,它只能在 IPO 之前完成最多 k 个不同的项目。帮助 LeetCode 设计完成最多 k 个不同项目后得到最大总资本的方式。给定若干个项目。对于每个项目 i,它都有一个纯利润 Pi,并且需要最小的资本 Ci 来启动...
2019-02-28 13:02:00 197
转载 [LeetCode解题报告] 703. 数据流中的第K大元素
题目描述设计一个找到数据流中第K大元素的类(class)。注意是排序后的第K大元素,不是第K个不同的元素。你的 KthLargest 类需要一个同时接收整数 k 和整数数组nums 的构造器,它包含数据流中的初始元素。每次调用 KthLargest.add,返回当前数据流中第K大的元素。示例int k = 3;int[] arr = [4,5,8,2];KthLargest ...
2019-02-26 22:50:00 192
转载 【排序】堆排序
什么是堆堆是一棵完全二叉树,可以用数组来存储。比如一个数组[3, 8, 15, 31, 24],具体为一个堆,它的逻辑结构如下所示:(图来自https://www.cnblogs.com/jingmoxukong/p/4303826.html#堆的概念,侵删)最大堆和最小堆最大堆:根结点的值是所有堆结点值中最大者,且以每个节点为根的所有子堆都为最大堆。最小堆:根结点的值是所有...
2019-02-24 14:41:00 141
转载 决策树
如何构建决策树准备工作:明确自变量和因变量确定信息度量的方式确定终止条件选择特征得到当前待处理子集计算所有特征信息度量得到当前最佳分类特征创建分支根据选中特征将当前记录分成不同分支,分支个数取决于算法是否终止判断是否满足终止条件生成结果判断是否需要剪枝案例根据部分电脑购买记录,对购买者建模。该模型可以基于客户的一些信息预测他是否会购...
2019-02-21 15:34:00 177
转载 【leet-code】712. 两个字符串的最小ASCII删除和
题目描述给定两个字符串s1, s2,找到使两个字符串相等所需删除字符的ASCII值的最小和。示例 1:输入: s1 = "sea", s2 = "eat"输出: 231解释: 在 "sea" 中删除 "s" 并将 "s" 的值(115)加入总和。在 "eat" 中删除 "t" 并将 116 加入总和。结束时,两个字符串相等,115 + 116 = 231 就是符合条件的最小...
2019-02-21 14:45:00 150
转载 146. LRU缓存机制
题目描述运用你所掌握的数据结构,设计和实现一个LRU (最近最少使用) 缓存机制。它应该支持以下操作: 获取数据 get 和 写入数据 put 。获取数据 get(key) - 如果密钥 (key) 存在于缓存中,则获取密钥的值(总是正数),否则返回 -1。写入数据 put(key, value) - 如果密钥不存在,则写入其数据值。当缓存容量达到上限时,它应该在写入新数据之前删...
2019-02-19 22:41:00 66
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人