2019年03月_UESTC_20172222

转载【机器学习】LR和线性回归讲解，区别

前言　　　回归算法是一种通过最小化预测值与实际结果值之间的差距，而得到输入特征之间的最佳组合方式的一类算法。对于连续值预测有线性回归等，而对于离散值/类别预测，我们也可以把逻辑回归等也视作回归算法的一种。　　线性回归与逻辑回归是机器学习中比较基础又很常用的内容。线性回归主要用来解决**连续值预测**的问题，逻辑回归用**来解决分类的问题**，输出的属于某个类别的概率...

2019-03-31 16:46:40 1187

转载【机器学习】类别不平衡问题现象，如何处理

在分类中如何处理训练集中不平衡问题在很多机器学习任务中，训练集中可能会存在某个或某些类别下的样本数远大于另一些类别下的样本数目。即类别不平衡，为了使得学习达到更好的效果，因此需要解决该类别不平衡问题。Jason Brownlee的回答：原文标题：8 Tactics to Combat Imbalanced Classes in Your Machine Learning Dataset...

2019-03-31 15:53:40 2198

原创【机器学习】精确率，召回率，F1

Precision 精确率(Precision）是指在所有系统判定的“真”的样本中，确实是真的的占比，就是TP/(TP+FP)。Recall 召回率（Recall）是指在所有确实为真的样本中，被判为的“真”的占比，就是TP/(TP+FN)。F1-Score ...

2019-03-31 15:50:39 402

原创【机器学习】SVM与LR的区别

个人建议希望大家首先去深刻理解李航的《统计机器学习》这本书后再看看这篇博客，会有很深的理解！！！！！！正文相同点都是监督的分类算法都是线性分类方法（我们这里假设不引入核函数）都是判别模型判别模型和生成模型判别模型是直接生成一个表示P(Y|X)或者Y=f(X)的判别函数（或预测模型）生成模型是先计算联合概率分布P(Y,X)P(Y,X)然后通过贝叶斯公式转化为条件概率。 SV...

2019-03-31 12:25:06 242

原创【数据结构算法】从1到n 中所有的数中出现数字x的次数

题目从1到n 中所有的数中出现数字x的次数，请注意，这里的x的范围是（0，9】思路如果第i位（自右至左，从1开始标号）上的数字为0，则第i位可能出现1的次数由更高位决定（若没有高位，视高位为0），等于更高位数字X当前位数的权重10i-1。如果第i位上的数字为x，则第i位上可能出现x的次数不仅受更高位影响，还受低位影响（若没有低位，视低位为0），等于更高位数字X当前位数的权重10i...

2019-03-31 11:15:03 555

原创【机器学习】LR如何实现多分类

对于选择softmax分类器还是个K 个 logistic分类器，取决于所有类别之间是否互斥。所有类别之间明显互斥用softmax分类器，所有类别之间不互斥有交叉的情况下最好用个logistic分类器。...

2019-03-30 22:25:03 1462

原创【机器学习】信息量，熵，相对熵（KL），交叉熵

这位博主写的很好https://blog.csdn.net/rtygbwwwerr/article/details/50778098

2019-03-30 21:48:03 172

原创【数据结构算法】编辑距离

问题描述给定 2 个字符串 a, b. 编辑距离是将 a 转换为 b 的最少操作次数，操作只允许如下 3 种：插入一个字符，例如：fj -> fxj删除一个字符，例如：fxj -> fj替换一个字符，例如：jxj -> fyj解题思路用分治的思想解决比较简单，将复杂的问题分解成相似的子问题假设字符串 a, 共 m 位，从 a[1] 到 a[m]字符串 b, 共 n...

2019-03-29 20:41:00 325

原创【机器学习】最大似然估计，最大后验概率估计

最大似然估计（Maximum likelihood estimation, 简称MLE）和最大后验概率估计（Maximum a posteriori estimation, 简称MAP）是很常用的两种参数估计方法，如果不理解这两种方法的思路，很容易弄混它们。下文将详细说明MLE和MAP的思路与区别。但别急，我们先从概率和统计的区别讲起。概率和统计是一个东西吗？概率（probabilty）和...

2019-03-29 12:15:18 246

原创【数据结构算法】二叉树中和为某一值的路径

题目输入一颗二叉树的跟节点和一个整数，打印出二叉树中结点值的和为输入整数的所有路径。路径定义为从树的根结点开始往下一直到叶结点所经过的结点形成一条路径。(注意: 在返回值的list中，数组长度大的数组靠前)解法# -*- coding:utf-8 -*-# class TreeNode:# def __init__(self, x):# self.val = x...

2019-03-29 00:13:38 181

转载【机器学习】L1和L2正则详解

正则化（Regularization）机器学习中几乎都可以看到损失函数后面会添加一个额外项，常用的额外项一般有两种，一般英文称作 ℓ1ℓ1ℓ1ℓ1ℓ1 \ell_1ℓ1ℓ1ℓ1hθ(x)的表达式是...

2019-03-28 22:08:47 481

转载【机器学习】SGD,SGDM,NAG,Adagard,AdaDelta,RMSpro,Adam原理

Adam那么棒，为什么还对SGD念念不忘 (1) —— 一个框架看懂优化算法机器学习界有一群炼丹师，他们每天的日常是：拿来药材（数据），架起八卦炉（模型），点着六味真火（优化算法），就摇着蒲扇等着丹药出炉了。不过，当过厨子的都知道，同样的食材，同样的菜谱，但火候不一样了，这出来的口味可是千差万别。火小了夹生，火大了易糊，火不匀则半生半糊。机器学习也是一样，模型优化算法的选择直接关系到最终模型的性能...

2019-03-28 21:20:23 3374

原创【数据结构算法】判断一个树是否是另一个树的子结构

题目输入两棵二叉树A，B，判断B是不是A的子结构。（ps：我们约定空树不是任意一个树的子结构）解题# -*- coding:utf-8 -*-# class TreeNode:# def __init__(self, x):# self.val = x# self.left = None# self.right = None...

2019-03-28 00:11:05 429

转载【深度学习】 word2vec原理详解（非常值得读的一篇文章）

word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包，它简单、高效，因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节，因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究...

2019-03-27 20:41:02 783

原创【数据结构算法】二叉搜索树转双向链表

题目输入一棵二叉搜索树，将该二叉搜索树转换成一个排序的双向链表。要求不能创建任何新的结点，只能调整树中结点指针的指向。解题思路就是简单的一个二叉树中序遍历,主要是明白什么是二叉搜索树二叉查找树（Binary Search Tree），（又：二叉搜索树，二叉排序树）它或者是一棵空树，或者是具有下列性质的二叉树：若它的左子树不空，则左子树上所有结点的值均小于它的根结点的值；若它的右子树不...

2019-03-27 17:11:28 287

原创【数据结构算法】二进制中1的个数

题目输入一个整数，输出该数二进制表示中1的个数。其中负数用补码表示。解题思路首先明白一个整数类型的（int）是4个字节，也就是32位.然后分开处理：对于大于等于0的数：直接转换成二进制数可以了，注意高位空的用0来补充，一定要是32位：例如4的二进制数“[0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0...

2019-03-27 16:06:14 173

转载【特殊技能】git详解

（预警：因为详细，所以行文有些长，新手边看边操作效果出乎你的预料）一：Git是什么？Git是目前世界上最先进的分布式版本控制系统。工作原理 / 流程：通常合并分支时，git一般使用”Fast forward”模式，在这种模式下，删除分支后，会丢掉分支信息，现在我们来使用带参数 –no-ff来禁用”Fast forward”模式。首先我们来做demo演示下：创建一个dev分支。修改rea...

2019-03-25 12:10:43 95

原创【python】python按照多个条件排序

废话不说，直接上代码d=[["a",1],["a",0],["d",3],["c",4]]d_sort_1=sorted(d,key=lambda x:(x[0],x[1]))#都是从小到大排列的d_sort_2=sorted(d,key=lambda x:(x[0],-x[1]))# 第二个字段按照反序print(d_sort_1)print(d_sort_2)运行结果[['a...

2019-03-25 08:50:14 2690

原创【leetcode】119. 杨辉三角 II

题目解题思路很简单，就是简单的动态规划，自己看吧class Solution(object): def getRow(self, rowIndex): """ :type rowIndex: int :rtype: List[int] """ rowIndex+=1 res=[[0]...

2019-03-24 23:58:37 357

转载【深度学习】从Word Embedding到Bert模型

Bert最近很火，应该是最近最火爆的AI进展，网上的评价很高，那么Bert值得这么高的评价吗？我个人判断是值得。那为什么会有这么高的评价呢？是因为它有重大的理论或者模型创新吗？其实并没有，从模型创新角度看一般，创新不算大。但是架不住效果太好了，基本刷新了很多NLP的任务的最好性能，有些任务还被刷爆了，这个才是关键。另外一点是Bert具备广泛的通用性，就是说绝大部分NLP任务都可以采用类似的两阶段...

2019-03-24 21:38:09 564

转载【深度学习】各种注意力机制：encoder-decoder,self-attention,multi-head attention的区别

最近以QA形式写了一篇nlp中的Attention注意力机制+Transformer详解分享一下自己的观点，目录如下：一、Attention机制剖析1、为什么要引入Attention机制？2、Attention机制有哪些？（怎么分类？）3、Attention机制的计算流程是怎样的？4、Attention机制的变种有哪些？5、一种强大的Attention机制：为什么自注意力模型（self-Atte...

2019-03-24 21:07:04 14528 1

原创【leetcode】118 杨辉三角

题目给定一个非负整数 numRows，生成杨辉三角的前 numRows 行。输入: 5输出:[[1],[1,1],[1,2,1],[1,3,3,1],[1,4,6,4,1]]解题思路单纯的动态规划问题，没啥讲的class Solution(object): def generate(self, numRows): """ :type...

2019-03-24 18:48:23 121

原创【leetcode】86. 分隔链表

题目给定一个链表和一个特定值 x，对链表进行分隔，使得所有小于 x 的节点都在大于或等于 x 的节点之前。你应当保留两个分区中每个节点的初始相对位置。示例:输入: head = 1->4->3->2->5->2, x = 3输出: 1->2->2->4->3->5解题思路使用两个链表来分别存储小于x的和大于等于x的，然后将两...

2019-03-24 17:56:50 131

原创【leetcode】124. 二叉树中的最大路径和

题目给定一个非空二叉树，返回其最大路径和。本题中，路径被定义为一条从树中任意节点出发，达到任意节点的序列。该路径至少包含一个节点，且不一定经过根节点。#解题思路最大路径和：根据当前节点的角色，路径和可分为两种情况：一定要注意是路径！！！！！！！当前节点为根节点时，1.只有当前节点2.当前节点+左子树3.当前节点+右子书4.当前节点+左右子树这四种情况的最大值即为以当前节点为...

2019-03-23 18:50:29 468

转载【机器学习】PCA 主成分分析

PCA（Principal Component Analysis）是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示，可用于提取数据的主要特征分量，常用于高维数据的降维。网上关于PCA的文章有很多，但是大多数只描述了PCA的分析过程，而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理，帮助读者了解PCA的工作机制是什么。当然我并不打算把文章写成纯数学文...

2019-03-23 17:11:20 425 6

原创【leetcode】102. 二叉树的层次遍历

题目描述解题思路就是一个简单的循环，不用递归# Definition for a binary tree node.# class TreeNode:# def __init__(self, x):# self.val = x# self.left = None# self.right = Noneclass Solut...

2019-03-23 12:16:14 170

原创【leetcode】93. 复原IP地址

题目给定一个只包含数字的字符串，复原它并返回所有可能的 IP 地址格式。示例:输入: “25525511135”输出: [“255.255.11.135”, “255.255.111.35”]解题思路ip地址分为四节，每节取值范围在[0,255]对于取出的字符串，若它的第一位为’0’，那么它的长度只能为1，多位字符不能以0作为开头每次拿出[1,3]个字符，判断是否符合ip地址的条件...

2019-03-23 11:49:31 187

原创【leetcode】149直线上最多的点

题目给定一个二维平面，平面上有 n 个点，求最多有多少个点在同一条直线上。解题思路来自这篇博客思路很简单，看代码给出2D平面中的n个坐标点，计算最多有多少个点在一条直线上一条直线可以用斜率表示，即如果已知(x1,y1)，(x2,y2)(x1,y1)，(x2,y2)，那么斜率为(y2−y1)/(x2−x1)(y2−y1)/(x2−x1) ，所以固定一个点，然后遍历其他点，将不同的斜率到个...

2019-03-22 21:34:22 342

原创【python学习】字典

该博客将记录python 字典的相关知识，后期会逐渐的添加学习中可变类型都不可以当作字典的key，如dict,list原子类型以及tuple类型可以当作字典的key

2019-03-22 19:43:29 217

原创【机器学习】SVM(二)

线性可分支持向量机

2019-03-11 20:38:47 173

原创【机器学习】SVM（一）

2019-03-11 20:36:47 259

原创拉格朗日对偶

这是我看李航的《统计机器学习》的学习笔记

2019-03-11 20:35:26 367

原创最短路径算法

这两位大佬写的都很好这位==大佬 == 的Dijkstra算法和Floyd算法写的都很好，不过后面的那个算法过程有点抽象，但是其代码写的很直观，看不懂的可以结合这位大佬看看##这是我在刷题过程中的代码。放在这里，留着自己查看的哈import sysclass DGraph: def __init__(self,n): self.vertices=n ...

2019-03-07 22:59:24 178

转载 Normalization:BN,LN,WN,CN详细讲解

这一篇很好的博客，为了防止作者删了我将他转换成图片保存下来，如有侵权，请联系我删除

2019-03-07 22:47:17 405

UESTC_201722的博客