今天也要笑笑鸭-CSDN博客

原创 leetcode hard 10. 正则表达式匹配

https://leetcode-cn.com/problems/regular-expression-matching/思路:动态规划dp：(len(s) +1)* (len(p) + 1) dp[ii][jj]代表s[0,i-1]和p[0,j-1]是否匹配，故有ii=i+1,jj=j+1。也就是说i,j对应比较时候改变的是dp[i+1][j+1]时的位置。边界情况,s='',需要...

2019-04-15 21:57:40 227

原创 leetcode 23. 合并K个排序链表

class Solution(object): def adjust_to_min_heap(self, arr, i, end): while i < end: l = 2 * i + 1 r = 2 * i + 2 min_ind = i if l < end ...

2019-04-11 13:37:04 147

原创 similarities.SparseMatrixSimilarity源码解析

def __init__(self, corpus, num_features=None, num_terms=None, num_docs=None, num_nnz=None, num_best=None, chunksize=500, dtype=numpy.float32, maintain_sparsity=False): ""...

2019-04-02 13:54:14 4168

原创 PageRank原理及其文本摘要提取中的应用

PageRank原理：被更多网页链接的网页排名应该靠前。被排名靠前的网页链接的网页重要性也应该提升。一个网页的排名等于所有链接到该网页的网页的加权排名之和。映射到文本领域：网页内容能和更多句子中的词相似的句子重要性大。令W为转移矩阵，由句子之间相似度计算得来。初始状态为均匀分布。直到p收敛，得到pagerank分数。D = [s1, s2, s3 …, sN...

2019-04-02 13:19:51 617

原创 gensim + tfidf计算句子之间相似度

def get_tfidf(words_lists): texts = words_lists dictionary = corpora.Dictionary(texts) feature_cnt = len(dictionary.token2id) corpus = [dictionary.doc2bow(text) for text in texts...

2019-04-02 11:39:01 4410 1

原创 leetcode best time to buy and sell stock 股票问题合集

121. 买卖股票的最佳时机 https://leetcode-cn.com/problems/best-time-to-buy-and-sell-stock/ 122. 买卖股票的最佳时机 II https://leetcode-cn.com/problems/best-time-to-buy-and-sell-stock-ii/ 123. 买卖股票的最佳时机 III h...

2019-01-25 12:07:38 350

原创 leetcode combination-sum题集

39. 组合总和 https://leetcode-cn.com/problems/combination-sum/ 40. 组合总和 II https://leetcode-cn.com/problems/combination-sum-ii/ 216. 组合总和 III https://leetcode-cn.com/problems/combination-sum-i...

2019-01-24 15:53:54 233

转载正则表达式

这是我看到对于python正则解释最透彻的博客，https://cuiqingcai.com/977.html。在此只总结方便记忆，侵权请告知。re.match:从开头判断是否匹配，需要.group()。 re.search:从所有地方判断是否匹配，需要.group()。 re.findall:找到所有匹配的结果。 re.finditer:findall的迭代形式。 re.sub:...

2019-01-03 12:15:52 135

原创隐马尔可夫模型(HMM)详解

写在前面：最近在看这位“血影雪梦”博主对HMM的理解，博客写得非常好，献上链接。在此不重复造轮子，只为个人记忆撰写以下内容。https://blog.csdn.net/xueyingxue001/article/details/51435728，基本概念。https://blog.csdn.net/xueyingxue001/article/details/51435752，概率计算方法。...

2018-12-26 17:11:18 358

原创 linux系统删除满足特定条件的文件

删除文件夹中文件名含有“badcase”的文件：首先找到这些文件然后加删除命令 xargs代表把前面的当作后面命令的输出find . -maxdepth 1 -regex ".*badcase.csv*" find . -maxdepth 1 -regex ".*badcase.csv*" -exec rm -rf {} \;或 find . -maxdepth 1 ...

2018-12-25 14:58:25 740

原创激活函数

激活函数的作用：将线性的神经网络通过附加激活函数可以逼近任何非线性函数。1.sigmoid（, ）函数不关于原点中心对称，收敛速度慢。导数很容易接近0，造成梯度消失。含有指数，计算量大。2.tanh（）关于原点中心对称，收敛速度好一些。梯度消失问题和计算量大的问题依然存在。3.relu（relu(x) = max（0，x））学习率大的时候，很可能造成网络中很...

2018-12-09 15:39:27 212 1

原创防止过拟合和欠拟合的方法

防止过拟合Early stop。增加验证集，验证集性能没有明显提升的时候停止。增大数据集。常见的是增加一些噪声构造新样本，重采样，从源头采集，以及分析数据分布构造更多假数据。正则化。为了降低模型复杂度，避免过分拟合训练数据，包括噪声和异常点。 dropout。随机丢弃一些神经元，避免过度赖某些数据特征。防止欠拟合添加其他特征添加多项式特征组合减少正则化参数...

2018-12-09 12:19:16 625

原创几种排序算法思路简记

1.选择排序每次选出最小值与第i位交换。2.插入排序每次当做前面有序往里面插入，插入的方式为从后往前冒泡。3.冒泡排序（及改进）胜者为王，相邻两两pk，每次都把最值送到最后。改进：设置flag，若发现本次没有元素交换过，则跳出，排序完毕。4.希尔排序设置一个gap，通常为数组长度一半。每次比较xi和xgap，以及选择是否交换。逐渐缩小gap = 0.5gap, 对...

2018-12-07 22:16:26 134

原创优化方法公式及简记

写在前面：随机梯度下降是最经典的优化算法，从公式来讲接下来的其他算法都是根据它可以修改、完善的。详见：https://blog.csdn.net/SecondLieutenant/article/details/81537772,L：N个样本的Loss和求均值。一会用反向梯度更新。1.GD（梯度下降）BGD：用所有样本去更新参数。 SGD：随机采取一个样本更新参数。速...

2018-12-07 21:52:40 1494

原创 LR是如何实现多分类的

https://www.cnblogs.com/lianyingteng/p/7784158.htmlone vs one： n个分类，训练n(n-1)个分类器，两两比较。最终投票决定最终类。 one vs all：n个分类n个分类器，表示是或不是这个分类器的概率，最终选择概率最大的作为最终类。 softmax：归一化的one vs all。k=2时是lr。类别互斥，用softma...

2018-12-06 12:06:19 3163

原创 L1和L2正则化简述

https://yq.aliyun.com/ziliao/435856L1Lasso : L2l岭回归:约束空间表明，图中的椭圆等高线与lasso的第一个交点很可能会出现在坐标轴上，导致W为0，而岭与等高线的第一个交点则不太可能会出现在坐标轴上。L1能产生稀疏性，倾向于选择更少的特征，而L2会选择更多的特征，尽管有些特征权重系数趋近于0。 L2防止过拟合，提升模型的泛化能...

2018-12-05 22:39:41 222

原创几种聚类算法原理简述：kmeans(以及++)，DBSCAN，层次聚类

kmeans和kmeans++参数：k（聚类个数）随机选取K个中心点。(KMEANS++会在选取一个中心点后更倾向于去选择离选定中心点更远的) 计算其他点离哪个中心点更近，就算做哪一簇。计算每个新簇的新中心点（取平均）。重新调整除中心点外的归属情况。直到每次分簇情况相同或者中心点收敛。DBSCAN参数：MINPTS，r某个点要成为中心点，他需要有多少个在以这个点为圆...

2018-12-05 22:14:26 933

原创机器学习的一些性能评价指标

分类1.精确率，准确率，召回率，F1-score。TP(True postive)，真正的正样本，实际为正，预测为正。 FP(False positive), 假的正样本，实际为负，预测为正。 TN(True negative)，真的负样本，实际为负，预测为负。 FN(False negative)，假的负样本，实际为正，预测为负。精确率：正确预测的样本/总样本 = (TP + ...

2018-12-05 18:34:06 676

原创 k-fold与交叉验证

https://zhuanlan.zhihu.com/p/24825503常用的是对标注数据集做7:3划分训练集和验证集，只用了一部分数据，且结果很大程度上依赖于选取的数据。 LOOCV（Leave-one-out cross-validation）:每次用一个样本测试，其他数据训练。计算量太大。 k_fold cv (k-fold cross validation) ：把数据分K份，...

2018-12-05 11:34:03 1444

原创条件随机场(crf)相关理解

https://www.zhihu.com/question/35866596建模公式：(一套CRF由一套参数λ唯一确定（先定义好各种特征函数）) 公式中O为观测序列，是X， I为隐状态序列，为Y。 i为观测序列第i个token，k为第k个特征。打分：指数上的特征加权。分数越高证明序列越靠谱，所以通过分数高可以确定。HMM, MEMM,CRF的模型区别：HMM，...

2018-12-04 19:59:38 195

原创 word2vec公式推导及原理简记

https://www.cnblogs.com/pinard/p/7243513.htmlhttp://www.cnblogs.com/pinard/p/7249903.htmlword2vec区别于one_hot映射方法，将词向量赋予含义并映射到向量空间，通过向量减法、点乘表示两词相差、相关性。两种预测模型：Cbow(周围词向量预测中间词向量)和skip-gram(中间词向量预...

2018-12-04 14:08:25 912 1

原创 gru公式及原理简记

https://blog.csdn.net/zhangxb35/article/details/70060295 GRU一共有2个门。z：更新门，取sigmoid表示以前的信息是否需要更新。 r：重置门，取sigmoid类似于LSTM的忘记门，代表以前的信息是否需要重置。h‘：输入+忘记该忘记的（ht-1 * r）新的h：更新需要更新的，不需要更新的维持。...

2018-12-02 22:54:15 10410 1

原创 lstm结构及公式

https://blog.csdn.net/lreaderl/article/details/78022724lstm一共有四个重要公式。f：忘记门，对拼接结果取sigmoid表示是否丢弃先前结果。 i：更新门，对拼接结果取sigmoid表示先前结果是否需要更新。 g：加工门，对拼接结果取tanh表示先前结果需要左何等程度更新。i与g做点乘，表示更新结果c'。f与ci-1点...

2018-12-02 22:44:41 3910

原创 CNN用于文本分类的原理细节

https://blog.csdn.net/chuchus/article/details/77847476卷积的三维定义通常情况下为[滤波器数量，卷积核长度，卷积核宽度]。卷积核长度一般为time维度，也就是句子长度的维度。宽度一般为特征维度，通常情况下是词向量的维度。卷积之后的结果：filtersize*(sententenlength - kernel length ...

2018-12-02 22:34:23 802

原创朴素贝叶斯分类器原理及公式

https://blog.csdn.net/u012162613/article/details/48323777全概率公式：贝叶斯定理：，，对于分类模型，X,y。X有n维特征各自独立，y有k类（k个取值）。独立性假设：用于分类的特征在类确定下来的情况下都是独立的。分母都一样，P(yk)根据数据分布求，分子第一项的求法有两种。x的特征离散时，表示为这一类样本中某个...

2018-12-02 15:51:05 1890

原创 svm的loss推导

http://ningyuwhut.github.io/cn/2018/01/gradient-of-svm-loss/ svm的损失函数：代表的是预测不正确(j!=yi)的时候，其他类的最高预测分数+delta要尽可能的低于正确类的预测分数。我们希望wyixi - (wjxi + delta)越大越好(正确类分数要最高)。损失的定义就是要尽可能缩小的东西，wjxi + del...

2018-11-30 19:17:09 622

维基百科给的定义式：tf-idf是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。tf-idf加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了tf-idf以外，互联网上的搜索引擎还会使用基于链接分析的评级方法，以确定文件在搜索结果中出现的...

2018-11-30 16:27:55 4381 2

原创 Logistic回归总结及公式推导

主要参考https://blog.csdn.net/ligang_csdn/article/details/53838743简记：sigmoid函数的值为二分类取值为1的概率。把取值为0和为1的概率合起来得到概率分布。按所有样本相乘，得到似然函数。 *-1/m取对数似然函数并对求偏导数。采用梯度下降法求似然函数最小值。结论是：就是每次减少学习率*所有样本值与误差值(预...

2018-11-30 15:49:51 1186

原创 Convolution Neural Networks for sentence Classification（yoon-kim）论文总结

论文思路就是把广泛应用在图像领域的cnn尝试在文本上应用，用一层conv1d+max_pooling1d+fully connected+softmax的简单结构,在很多经典的文本分类问题上都取得了非常不错的效果。结果如下图：博主对论文的仿真的大致过程是：首先对数据集进行处理，X是(影评数，最长句的长度，word2vec的维度)这样的一个三位矩阵，而y是(影评数,)的向量。那过程很清晰，先把

2017-10-26 13:06:23 874

原创 Batch Normalization的前向和反向传播过程

为什么要batch normalization？前向传播反向传播1.batch normalization的原理在反向传播的过程中，是一个w不断叠乘的结果，因为在传播过程中w时一个不确定范围的数值。在反向传播的过程中，如果w多数大于1，会造成梯度爆炸，大多数大于0小于1，会梯度弥散。为了解决这个问题，就有了Batch Normalization的思想。假设： wunknown=α

2017-09-28 11:02:40 5541

原创 svm的loss和梯度推导及代码

svm的loss和梯度推导及代码这个是svm的计算方式的数学实现，相信大家应该已经很熟悉了，svm算法就是对于每一个样本，计算其他不正确分类与正确分类之间的差距，如果差距大于delta那就说明差距大，需要进行进一步优化，所以对于每个样本，把这些差距加起来，让他们尽量小，这个就是svm的核心思想。 loss就很简单了，还是直接求和。而梯度，求导相对于softmax就简单了很多，没有复杂的指

2017-09-27 09:41:27 9935 6

原创 softmax的loss和gradient推导过程

softmax的loss和gradient推导过程相信搞deeplearning的各位大牛都很熟悉softmax了，用来对得分矩阵做归一化得到概率的一种分类手段，我这两天在做cs231n的作业，新手上路，只作为自己的学习足迹记录，还望各位大佬多多包涵。简单介绍Softmax的loss计算Softmax的grad计算naive loopvectorization简单介绍这个公式是大

2017-09-25 16:55:58 5372 2

silent_crown的博客