自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Flying_sfeng的博客

Talk is cheap, show me the code.

  • 博客(90)
  • 资源 (8)
  • 收藏
  • 关注

原创 Leetcode 448. Find All Numbers Disappeared in an Array

Leetcode 448. Find All Numbers Disappeared in an Array这是道Leetcode easy题,但比较有意思的点是,题目要求用O(n) 的时间复杂度和O(1)的空间复杂度。要同时满足这个条件,还是需要一点技巧的。 具体题目如下:Given an array of integers where 1 ≤ a[i] ≤ n (n = size of a...

2019-03-03 14:38:47 313

原创 Leetcode67: 两个二进制字符串的求和

Leetcode67: Add Binary具体题目如下:Given two binary strings, return their sum (also a binary string).The input strings are both non-empty and contains only characters 1 or 0.Example 1:Input: a = “11”,...

2019-03-03 14:38:07 1069

原创 Leetcode46: 全排列

Leetcode46: PermutationsGiven a collection of distinct integers, return all possible permutations.Example:Input: [1,2,3]Output:[[1,2,3],[1,3,2],[2,1,3],[2,3,1],[3,1,2],[3,2,1]]思路:遍历nums中的...

2019-03-03 14:35:41 288

原创 Leetcode 873:最长递增斐波那契子序列

Leetcode 873: Length of Longest Fibonacci Subsequence题目要求如下:A sequence X_1, X_2, …, X_n is fibonacci-like if:n >= 3X_i + X_{i+1} = X_{i+2} for all i + 2 <= nGiven a strictly increasing arra...

2019-03-03 14:35:12 596

原创 Leetcode3:最长不重复子串

Leetcode3: Longest Substring Without Repeating Characters具体题目如下:Given a string, find the length of the longest substring without repeating characters.Example 1:Input: “abcabcbb”Output: 3Explanat...

2019-03-03 14:34:42 802

原创 张量分解(六):TTRNN model for video classification

张量分解系列:张量分解(一):基础知识张量分解(二):CP分解张量分解(三):Tucker分解张量分解(四):Tensor-train Decomposition张量分解(五):Tensorizing Neural Network爬山涉水,终于来到了这里,这篇文章主要讲解Tensor-train Decomposition在RNN中的应用,并用于视频分类任务。其实将TT分解应用于RN...

2019-02-16 16:40:17 5537 8

原创 张量分解(五):Tensorizing Neural Network

张量分解系列:张量分解(一):张量分解(一):基础知识张量分解(二):张量分解(二):CP分解张量分解(三):张量分解(三):Tucker分解张量分解(四):张量分解(四):Tensor-train DecompositionTensorizing Neural Network即张量化神经网络,跟一般神经网络的区别是把输入输出,权重,偏置等转换成张量的形式,反向传播同样使用链式法则。这...

2019-02-16 16:19:05 7310 5

原创 张量分解(四):Tensor-train Decomposition

在讲解Tensor-train Decomposition之前,我们先看一下Tensor-train Decomposition在三阶张量上的分解形式:Tensor-train Decomposition将原来的高维张量分解为多个三维张量的乘积(首尾张量为二维),具体分解形式如下图:Tensor-train Decomposition的参数优化方法为TT-SVD:参考:Tensor-T...

2019-02-16 15:42:18 17885 1

原创 pycharm 2018.3版本激活方法

1.下载破解补丁:https://gitee.com/pengzhile/jetbrains-agent ,并放到pycharm安装目录的\bin目录下(非必须,位置随意)2.在pycharm安装目录的\bin目录下找到 pycharm.exe.vmoptions 和 pycharm64.exe.vmoptions ,以文本格式打开并同时在两个文件最后追加 -javaagent:D:\your...

2018-11-22 14:15:47 17788 6

原创 张量分解(三):Tucker分解

在讲解Tucker分解之前,我们先看一下Tucker分解在三阶张量上的分解形式: Tucker分解(Tucker decomposition)是高阶的主成分分析的一种形式。它将一个张量分解成一个核张量与每一维矩阵的乘积,具体如下: 这里A∈RI×P,B∈RJ×Q,A∈RK×RA∈RI×P,B∈RJ×Q,A∈RK×RA\in R^{I\times P},B\in R^{J\times Q...

2018-08-27 11:13:14 26542 5

原创 张量分解(二):CP分解

这一篇文章主要讲解CP分解算法(CANDECOMP/PARAFAC decomposition). 首先,我们必须明确,CP分解是做了什么工作,目的是想干什么。 我来自问自答:CP分解是将一个高维的张量,分解成多个核的和,每个核是由向量的外积组成;通过这样的分解,我们可以大大地降低参数的维度。 其实,不止CP分解,其他的张量分解算法都是同个道理,只是所采用的分解方法不同而已。当然,这样的分解...

2018-08-25 19:41:24 26265 8

原创 各种排序算法的C++实现

最近有空,写了常见的几种排序算法的C++实现,包括改进版本的冒泡排序,简单选择排序,直接插入排序,快速排序,堆排序。1 改进版本的冒泡排序://改进版本的冒泡排序;void swapData(vector<int>& L,int i,int j){ int temp = L[i]; L[i] = L[j]; L[j] = temp;}v...

2018-08-21 10:51:40 419

原创 动态规划之最长公共子序列

最长公共子序列(LCS)算是动态规划里面的一个经典问题的。本文主要讲LCS的编程实现(python版本)。 LCS问题:给定两个序列X=<x1,x2,...,xm>X=<x1,x2,...,xm>X=和Y=<y1,y2,...,yn>Y=<y1,y2,...,yn>Y=

2018-07-28 17:18:24 421

原创 动态规划之斐波那契数列

最近开始学习动态规划(dp),看了《算法导论》关于动态规划的内容,慢慢也整理一些dp的经典问题上来。 适合动态规划方法求解的最优化问题应该具备的两个要素:最优子结构和子问题重叠。dp的方法相当于是把要重复求解的子问题保存下来,这样就不用重复计算了,可以节省大量的时间。 这篇博客主要讲一下斐波那契数列的递归实现和动态规划实现。这个比较简单,直接上代码: 1)斐波那契数列的递归实现def f...

2018-07-28 16:50:57 1685

原创 EM算法原理分析

EM算法主要用于含有隐藏变量的参数估计问题。 在将EM算法之前,先讲一下Jensen不等式。 定理:假设f是一个凸函数,X是随机变量,即: E[f(X)]≥f(EX)E[f(X)]≥f(EX)E[f(X)]\ge f(EX) 此外,如果f是严格凸的,当且仅当X=E[X]=常数(不再是随机变量)时E[f(X)]=f(EX)X=E[X]=常数(不再是随机变量)时E[f(X)]=f(EX)X=E...

2018-07-26 12:35:30 1618

原创 Hessian矩阵及局部极小点的条件

一 Hessian矩阵: 实值函数f(x)相对于n×1n×1n\times 1实向量x的二阶偏导是一个由m2m2m^2个二阶偏导组成的矩阵(称为Hessian矩阵),定义为: ∂2f(x)∂x∂xT=∂∂xT[∂f(x)∂x]∂2f(x)∂x∂xT=∂∂xT[∂f(x)∂x]{\partial ^2f(x)\over \partial x \partial x^T}={\partial \ov...

2018-07-25 11:02:22 11790

原创 神经网络多分类中为什么用softmax函数归一化而不用其它归一化方法

直观的解释是为了平衡概率分布,同时避免出现概率为0的情况(使得模型可以不用再做平滑化处理)。 从反向传播的角度推导一波: softmax函数的形式为: P(y=i)=eWiX∑Nj=1eWjXP(y=i)=eWiX∑j=1NeWjXP(y=i)={e^{W_iX}\over \sum_{j=1}^Ne^{W_jX}} 目标函数为: L=−∑ktklogP(y=k)  ...

2018-07-05 14:55:24 8372 2

原创 word2vec原理剖析

本文根据word2vec 中的数学原理详解整理而成。 根据word2vec算法的原理,大概总结如下; 1) 由统计语言模型发展到n-gram模型,再由n-gram模型发展到NNLM模型,最后到word2vec模型; 2) word2vec模型包括CBOW模型和Skip-gram模型; 3) 对于CBOW模型和Skip-gram模型,又分别有基于Hierarchical S...

2018-06-28 16:13:11 1179

原创 文档积累及常见bug解决方案

文档积累: 1)Pycharm 远程调试的配置文档: pycharm远程调试配置 pycharm远程调试配置 根据以上两个文档配置完成后,本地修改后只需要ctrl+s,服务器端就能同步修改了。常见Bug解决方案: 1)关于Pycharm 远程调试配置,我在配置过程中出现了一个问题:No files or folders found to process。 原因是服务器端的配置路径没...

2018-06-09 10:05:43 3466

原创 python文件操作总结

本文总结一下最近用到的一些文件及文件夹操作。 (1)获取文件夹里的所有文件名(os.listdir()):import ospath = XXX #你自己的文件夹路径filenames = os.listdir(path)(2)获取当前工作路径(os.getcwd()):file_path = os.path.join(os.getcwd(), filename) #o...

2018-05-10 10:03:46 533

原创 使用Scrapy框架爬虫实例

给大家安利一篇文章:小白进阶之Scrapy第一篇 这篇文章一步步讲如何使用Scrapy框架进行网页爬虫,简直是初学者的福音。 我接下来的内容也是按照他的思路写的,写这篇文章的目的是为了整理一下思路,把一些关键点列出来,大家想详细阅读的直接看上面推荐的文章就行了。如果你看完原文还不太理解,就来看我的总结吧。当然,我在文章的最后也会提供完整的代码,有需要的朋友请自行下载。 使用Scrapy框架之前...

2018-05-06 14:26:58 1671

原创 笔试题分享

1)分享一道京东的笔试题: 题目描述 小明同学学习了不同的进制之后,拿起了一些数字做起了游戏。小明同学知道,在日常生活中我们最常用的是十进制数,而在计算机中,二进制数也很常用。现在对于一个数字x,小明同学定义出了两个函数f(x)和g(x)。 f(x)表示把x这个数用十进制写出后各个数位上的数字之和。如f(123)=1+2+3=6。 g(x)表示把x这个数用二进制写出后各个数位上的数字之和。如1...

2018-04-04 14:31:25 823 1

原创 python中Hadamard product和matrix product的区分

大年初一还在写博客,我对科研一定是真爱。。 自嘲一波,开始正题。最近在看LSTM源码的时候,发现了一个奇怪的现象,具体如下: 先放上LSTM的原理图 我们知道,图片中粉红色的乘法表示的是Hadamard product,但是我在阅读源码的时候,发现使用的是∗∗*, 而我对∗∗*的理解一直是matrix product. 陷入泥潭,后来通过阅读python官方文档才发现是怎么回事。 先简...

2018-02-16 16:55:32 7391

原创 支持向量机(SVM)原理分析

版权说明:码字不易,转载请注明出处:http://blog.csdn.net/flying_sfeng/article/details/79055411 支持向量机(SVM)是一种二分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器。支持向量机学习的基本思想是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。 对于下图线性可分的情况,SVM就是为了找到一个最优的超平面,将正负

2018-01-21 16:24:08 2585

原创 使用tensorflow的lstm网络进行时间序列预测

这篇文章将讲解如何使用lstm进行时间序列方面的预测,重点讲lstm的应用,原理部分可参考以下两篇文章:Understanding LSTM Networks       LSTM学习笔记编程环境:python3.5,tensorflow 1.0本文所用的数据集来自于kesci平台,由云脑机器学习实战训练营提供:真实业界数据的时间序列预测挑战数据集采用来自业界多组相关时间序列(约4

2017-12-20 14:25:28 62573 86

原创 关于matlab需要重新激活问题的解决方法

不知道最近各位小伙伴打开matlab会不会出现需要重新激活的问题,如下:刚开始我一脸懵逼,后来在网上查了一下,发现原来是许可证过期了,如下:该license file的截止日期是2017-11-11(好吧,这说明我已经很久没打开过matlab了),所以就会出现需要重新激活的情况。解决方案很简单:先找到你下载的破解文件(如下图):从里面把license file 找出来(

2017-12-13 21:22:15 19987 2

原创 FFM模型在点击率预估中的应用实践

这篇文章,将主要讲述FFM模型在CTR预估中的应用。

2017-12-07 11:53:23 7665 10

原创 广义线性模型与指数分布族

在机器学习领域,很多模型都是属于广义线性模型(Generalized Linear Model,GLM),如线性回归,逻辑回归,Softmax回归等。这篇文章广义线性模型,并由它推导出线性回归,逻辑回归,Softmax回归的表达式。 广义线性模型是基于指数分布族的,所以我们先来看一下指数分布族的一般形式: p(y;η)=b(y)exp(ηTT(y)−a(η))p(y;\eta)=b(y)exp(

2017-09-17 11:25:25 8433

原创 逻辑回归原理及推导过程

逻辑回归处理的是分类问题,具体来说,是处理二分类问题。为了实现逻辑回归分类器,我们可以在线性回归的基础上(即每个特征乘以一个回归系数后相加),添加一个sigmoid函数,进而得到一个范围在0-1之间的数值。任何大于0.5的数据会被分入1类,小于0.5即被分入0类。至于为什么要用sigmoid函数,简单来说,是为了将标签归到[0,1]的范围内;

2017-09-16 12:03:58 6535 4

原创 线性回归及其概率解释

线性回归的几种优化参数方法:批量梯度下降法,随机梯度下降法,矩阵求导等;以及线性回归中最小化平方损失函数的概率解释,局部加权线性回归方法。

2017-09-15 17:16:22 3769

原创 数据挖掘入门指南:以kaggle:titanic为例

一般的数据挖掘竞赛或者项目包括以下步骤:(1)数据预处理和特征工程(2)构造模型(3)模型融合这篇博客将以kaggle上的titanic题目作为例子,具体讲一讲各个步骤的操作过程。数据集可自行到 kaggle:titanic 下 载。PS:对于titanic这道题,个人觉得重点不是在于把成绩提高到多少,因为样本实在太少了,所以我们应该把关注点放在学习如何分析数据,以及构建模

2017-08-30 21:54:34 2908 8

原创 数据处理神器Pandas的相关函数

最近参加比赛,需要处理各种各样的数据。不得不说,pandas给我带来了很大的方便。困于一直没整理,每一次用到都要查官方文档。现在打算慢慢把用到的函数记录下来,积少成多。(1)df.value_counts():统计具体某一列相同值的个数for example:有下面一个表,这个表有300万行,这里只截取一部分举例。我想统计item_id这一列中每一个相同id的个数代码如下:i...

2017-07-15 16:10:37 5915

原创 Python安装gif库:cannot import name 'readGif'解决方法

本人安装完images2gif库要 import image2gif 时,出现了以下问题:可以看到,在import readGif 时出错了,出错原因是images2gif是支持Python2.X版本的,而我的是Python3.5版本,所以出现不兼容情况。解决方法:在错误提醒的路径中(我的是: "D:\software_install\Anaconda_install\lib\site

2017-06-18 21:51:25 5155 3

原创 python:二维字典的键值合并等函数

这篇文章主要讲python中关于字典的一些具体操作,讲解的问题都是本人在实际编程中所遇到的问题,读者可以根据自己所遇到的问题具体问题具体分析。(1) 二维字典的键值合并:先提供一个应用场景:假设我有两个二维字典: room1 = {orderid1:{roomid1:pred1,roomid2:pred2},orderid2:{roomid3:pred3,roomid4:pred4}}...

2017-05-31 21:00:56 7366

原创 window7环境下使用easyBCD硬盘安装Ubuntu双系统

如题,这篇文章主要讲解如何在window7环境下使用easyBCD硬盘安装Ubuntu双系统。PS:推荐一个安装链接:win7下通过easyBCD引导安装Ubuntu14.04  ,我就是根据这个链接安装成功的。文章的安装步骤也是按照这个链接的逻辑写的,只是加了一些自己安装过程中遇到的一些错误,给出解决方案。安装环境:window7,easyBCD2.3,Ubuntu16.04,硬盘安

2017-05-23 10:58:32 2785

原创 window下安装xgboost

这几天看了陈天奇大神关于xgboost的论文:XGBoost: A Scalable Tree Boosting System 膜拜大神。先立个flag,有空的时候再专门写一篇关于这篇论文的博客。现在,先看一下怎么在window环境下安装xgboost。在网上看到了很多相关的安装教程,五花八门。但其实xgboost的安装很简单(使用whl安装)。安装环境:window7,anaconda

2017-05-12 16:10:06 2236

原创 将TXT文件数据存进Python内置数据库splite3

当TXT文件太大,计算机内存不够时,我们可以选择按行读取TXT文件,并将其存储进Python内置轻量级splite数据库,这样可以加快数据的读取速度,当我们需要重复读取数据时,这样的速度加快所带来的时间节省是非常可观的,比如,当我们在训练数据时,要迭代10万次,即要从文件中读取10万次,即使每次只加快0.1秒,那么也能节省几个小时的时间了。#创建数据库并把txt文件的数据存进数据库impor

2017-04-26 08:16:46 3657

原创 window下启动tensorboard

tensorboard是TensorFlow的一个可视化工具,能够监控TensorFlow运行过程中的计算图,各种指标随着时间的变化趋势以及训练中使用到的图像等信息。先贴个总结:首先,必须在终端启动tensorboard;其次,如果在tensorboard中发现没找到graph,那么一般是路径没匹配好,修改一下路径即可。按照例程,写一个可视化graph的代码:import tens

2017-04-10 10:20:12 22567 7

原创 Logistic回归和Sigmoid函数分类中的最大似然估计

在讲Logistic回归前,先具体说明一下什么是最大似然估计,可以参考最大似然估计学习总结------MadTurtle梯度上升算法的代码如下:def sigmoid(inX): return 1.0/(1+exp(-inX))def gradAscent(dataMatIn, classLabels): dataMatrix = mat(dataMatIn)

2017-03-26 22:47:10 3797 3

原创 Python的numpy库中将矩阵转换为列表等函数

这篇文章主要介绍Python的numpy库中的一些函数,做备份,以便查找。(1)将矩阵转换为列表的函数:numpy.matrix.tolist()(2)将数组转换为列表的函数:numpy.ndarray.tolist()(3)numpy.mean()计算矩阵或数组的均值:(4)numpy.std()计算矩阵或数组的标准差:(5)numpy.newaxis为数组增加一个维度:

2017-03-26 20:17:50 40139 3

scrapy爬虫实例代码

此部分代码是使用scrapy框架进行爬虫的实例,按照以下文章分享的内容进行整理的https://cuiqingcai.com/3472.html,欢迎有兴趣的同学进行下载学习。

2018-05-06

使用Python实现决策树

2017年3月16号关于决策树的资源上传错了,这一份才是决策树的Python代码实现,包含详细的中文注释,欢迎下载学习。Python版本为2.7.

2017-06-24

随机森林的代码实现和相应的数据集 (python代码)

本文件包括随机森林的代码实现和相应的数据集,以及详尽的中文注释,已调试通过。代码有两份,一份是在网上下载的,另一份是自己整理后编写的。编程环境为Python2.7。因为只是用来学习随机森林算法,所以在调参方法没下多少功夫,正确率可能不太高,当然数据集比较小也是一个原因。感兴趣的童鞋可以自己调整参数提高正确率。

2017-03-20

决策树的Python代码实现

本代码为本人阅读《机器学习实战》后写的关于使用决策树进行分类的完整代码,包括详细的中文注释,编程环境为Python2.7,欢迎下载学习。

2017-03-16

Python爬虫爬取网页信息

本资源是本人根据慕课网的视频教程整理的一份代码,已调试通过。目的是爬取百度百科1000个词条的网页信息,编程环境是Python3.5.

2017-03-13

基于物品的协同过滤算法itemCF原理及python代码实现

文件是基于物品的协同过滤算法itemCF原理及python代码实现,包含MovieLens数据集中的ml-100k数据集,开发环境是Python2.7.代码是我按照《推荐系统实践》里面的公式写的完整程序,并添加了中文注释。

2017-02-21

基于用户的协同过滤算法数据集及代码实现

这是我参考网上资料后自己写的基于用户的协同过滤算法,包括算法所用到的数据集及相关代码,基于Python实现,代码包含详细解释。

2017-02-18

基于PCA及SVM的人脸识别

代码包含MATLAB自带的princomp函数以及自己编写的PCA函数进行PCA降维,实现功能相同,准确率略有差异。

2016-12-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除