关闭

Linux下tar gz的含义

tar是指将多个文件打包到一起变成一个文件 本程序最初的设计目的是将文件备份到磁带上(**t**ape **ar**chive),因而得名tar。 gz是gzip的缩写,是一种压缩方式,通常看到的.tar.gz结尾的文件就是通过tar打包后用gz压缩的文件。...
阅读(17) 评论(0)

如何处理不平衡数据

采样法过采样和欠采样过采样:过拟合(学习到小类别样本中的噪声) 欠采样:欠拟合(丢失大类别样本中的重要数据)SMOTE算法找到小类别样本中的k个近邻,然后在他们之间的连线上取点,作为新的样本。缺点:容易过拟合Borderline-SMOTE其与SMOTE的不同是:SMOTE是对每一个minority样本产生综合新样本,而Borderline-SMOTE仅对靠近边界的minority样本创造新数据。...
阅读(74) 评论(0)

为什么使用ReLU而不是sigmoid

sigmoid计算复杂,需要计算指数 梯度弥散: 对于每层只有一个神经元的网络,考虑每一层的偏导数,我们发现 ∂C∂b1=σ′(z1),w2σ′(z2),w3σ′(z3),w4σ′(z4),∂C∂a4.(122)\begin{eqnarray} \frac{\partial C}{\partial b_1} = \sigma’(z_1) , w_2 \sigma’(z_2) , w_3...
阅读(50) 评论(0)

[python]leetcode(309). Best Time to Buy and Sell Stock with Cooldown

problem Say you have an array for which the ith element is the price of a given stock on day i. Design an algorithm to find the maximum profit. You may complete as many transactions as you...
阅读(163) 评论(0)

[python]leetcode(75). Sort Colors

problem Given an array with n objects colored red, white or blue, sort them so that objects of the same color are adjacent, with the colors in the order red, white and blue. Here, we will...
阅读(71) 评论(0)

条件随机场(CRF)

在进行样本标注时,不认为它们类别之间是独立的,而是和它们的先后关系有一定的区别,例如在词性标注中,两个相邻的单词即使在其他语料中几乎都被标记为动词,那么它俩也不可能同时为动词,这样就是利用了样本的顺序信息。据此,我们可以建立多个特征函数来评价一个标记序列,Introduction to Conditional Random FieldsImagine you have a sequence of s...
阅读(63) 评论(0)

[python]leetcode(49). Group Anagrams

problem Given an array of strings, group anagrams together. solution这个问题的关键就在于如何判别两个字符串是不是anagrams,比较容易想到的是把字符串排序之后在进行比较,只不过这样的复杂度是O(nlogn)O(n\log n),n为字符串长度,我们要利用的信息就是不管怎么样排列都是anagram,所以要找到一个函数使得变换次...
阅读(55) 评论(0)

[python]leetcode(22). Generate Parentheses

problem Given n pairs of parentheses, write a function to generate all combinations of well-formed parentheses. solution1-回溯法参考这篇博客的模板,我们可以把括号生成的问题考虑成一颗二叉树遍历问题,对这棵树进行遍历回溯。class Solution(object):...
阅读(53) 评论(0)

[python]leetcode(148). Sort List

problem Sort a linked list in O(n log n) time using constant space complexity. solution因为常见的排序算法时间复杂度描述的都是顺序表,而链表和顺序表的主要区别就是顺序表可以随机存取,而链表的查找效率为O(n)O(n),插入、删除操作链表的效率要更高,但是这建立在已知插入位置的情况下。class Solution...
阅读(48) 评论(0)

[python]leetcode(23). Merge k Sorted Lists

problem Merge k sorted linked lists and return it as one sorted list. Analyze and describe its complexity. solution对于这个问题,有这样两种主要的思路: 从这k个链表中找出最小的连接到dummy node上,知道所有链表为空。 把merge k简化成merge 2,也就是每次只...
阅读(79) 评论(0)

广义线性模型

什么是广义线性模型广义线性模型(GLM)假设实验者所量测的随机变数(Y)的分布函数与实验中系统性效应(X,即信息,非噪声)可经由一链接函数(link function)建立起可资解释其相关性的函数。也就是说可以找到一个链接函数,找出X与Y的相关性。也就是说E(y)=μ=g−1(Xβ)\operatorname {E}({\boldsymbol {y}})={\boldsymbol {\mu }}...
阅读(50) 评论(0)

检验样本是否服从正态分布,处理偏态分布

在数据分析中如果某个数据服从正态分布的话,我们可以利用正态分布的性质做出很多有意义的分析,例如t-检验。。如何检验样本是否服从正态分布? 可以使用Q-Q图来进行检验,Q-Q图是一个散点图,点(x, y)表示数据x的某个分位数,y表示和x的分位数相同的分位数(即FX(x)=FY(y)F_X (x)=F_Y(y)),如果说两个分布的QQ图在一条直线上,则说明每个[xi,xi+1],[yi,yi+1][...
阅读(179) 评论(0)

42. Trapping Rain Water

problem Given n non-negative integers representing an elevation map where the width of each bar is 1, compute how much water it is able to trap after raining. For example, Given [0,1,0,2,...
阅读(40) 评论(0)

[python]leetcode(632). Smallest Range

problem You have k lists of sorted integers in ascending order. Find the smallest range that includes at least one number from each of the k lists. We define the range [a,b] is smaller tha...
阅读(45) 评论(0)

特征工程

特征值处理对特征的值进行操作特征处理 特征二值化:通过阈值把特征转化为0-1,有些特征只接受布尔值作为输入。 特征离散化:把连续的数值转化为离散的,是让每一部分样本相同,还是每一部分区间长度相同? 特征值转化:放缩、平移 特征正规化:把所有的特征的分布变为N(0,1)N(0, 1),这样在梯度下降时收敛更快。 对特征加入先验:例如可以用来区分是语法词还是情感词。 特征选择less is more...
阅读(51) 评论(0)
117条 共8页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:18234次
    • 积分:1270
    • 等级:
    • 排名:千里之外
    • 原创:113篇
    • 转载:2篇
    • 译文:2篇
    • 评论:0条
    联系方式
    huang_yn@pku.edu.cn