自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 《西瓜书》笔记汇总

《西瓜书》第三章 线性模型 手写版笔记 《西瓜书》第四章 决策树 笔记 《西瓜书》第六章 SVM支持向量机 笔记 《西瓜书》第六章 公式6.2推导 空间任一点到超平面的距离 《西瓜书》第六章 公式6.6 凸二次规划问题 ...

2019-05-30 21:00:58 588 0

原创 K-Means算法

文章目录1. 介绍2. 流程3. 优点4. 缺点5. KNN vs K-Means6. 笔试题相关7. 参考资料 1. 介绍 K-Means算法是无监督的聚类方法,其思想很简单,对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇。让簇内的点尽可能紧密的连在一起,而让簇间的距离尽量的大。...

2019-10-15 14:32:14 31 0

原创 KNN(k-NearestNeighbor) K最近邻分类算法

文章目录1. 介绍2. 流程3. 优点4. 缺点5. K的取值6. 总结7. 笔试题相关8. 参考资料 1. 介绍 邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最...

2019-10-13 15:08:11 168 0

原创 梯度下降及优化算法

文章目录1. 梯度下降算法1.1 全量梯度下降(Batch gradient descent)1.2 随机梯度下降(Stochastic gradient descent) SGD1.3 小批量梯度下降(Mini-batch gradient descent)1.4 梯度下降算法存在的问题与挑战2...

2019-10-12 09:36:34 62 0

原创 Pytorch学习笔记 Task2.2 pytorch实现线性回归

1 pytorch 实现线性回归 from torch.autograd import Variable from torch.utils.data import TensorDataset, DataLoader """ Pytorch Dataset/Tenso...

2019-08-26 18:52:42 48 0

原创 Pytorch学习笔记 Task7 实现手写数字识别

用PyTorch完成手写数字识别

2019-08-23 20:55:25 24 0

原创 Pytorch学习笔记 Task5 实现L1,L2正则化以及Dropout

1.了解知道Dropout原理 2.用代码实现正则化(L1、L2、Dropout) 3.Dropout的numpy实现 4.PyTorch中实现dropout 5.参考资料:PyTorch 中文文档

2019-08-23 20:54:48 39 0

原创 Pytorch学习笔记 Task6 理解更多神经网络优化方法

1.了解不同优化器 2.书写优化器代码 3.Momentum 4.二维优化,随机梯度下降法进行优化实现 5.Ada自适应梯度调节法 6.RMSProp 7.Adam 8.PyTorch种优化器选择

2019-08-23 20:52:39 20 0

原创 Pytorch学习笔记 Task4 实现多层网络

1.引入模块,读取数据 2.构建计算图(构建网络模型) 3.损失函数与优化器 4.开始训练模型 5.对训练的模型预测结果进行评估

2019-08-23 20:51:45 35 0

原创 NLP论文研读-Denoising Distantly Supervised Open-Domain Question Answering

研究动机,研究方法,实验结果,创新点,个人点评

2019-08-14 20:14:07 46 0

原创 NLP论文研读 Task1 ELMO

研究动机,研究方法,实验结果,创新点,个人点评 ELMO 是 Embeddings from Language Models 的缩写,即语言模型的词向量表示,也是利用了深度上下文单词表征,该模型的优点: (1)能够处理单词用法中的复杂特性(比如句法和语义) (2)这些用法在不同的语言上下文中如何变...

2019-08-14 15:50:27 62 0

原创 NLP论文研读 Task1 ELMO模型调试笔记

模型地址,模型运行环境,数据集选择与下载,模型运行步骤,问题与解决方法汇总,个人点评

2019-08-14 15:49:16 33 0

原创 高级算法梳理 Task4 LightGBM

任务描述 LightGBM 介绍 LightGBM 起源 Histogram VS pre-sorted leaf-wise VS level-wise 特征并行和数据并行 顺序访问梯度 支持类别特征 应用场景 sklearn参数 CatBoost(了解) ...

2019-08-13 15:05:54 18 0

原创 NLP基础 Task4 朴素贝叶斯 SVM LDA

1,朴素贝叶斯 朴素贝叶斯的原理 利用朴素贝叶斯模型进行文本分类 2,SVM模型 SVM的原理 利用SVM模型进行文本分类 3,LDA主题模型 pLSA、共轭先验分布 LDA 使用LDA生成主题特征,在之前特征的基础上加入主题特征进行文本分类 LDA数学八卦 lda2 合并特征 ...

2019-08-13 11:43:38 26 0

原创 NLP基础 Task3 特征选择

0.任务描述 TF-IDF原理。 文本矩阵化,使用词袋模型,以TF-IDF特征值为权重。(可以使用Python中TfidfTransformer库) 互信息的原理。 使用第二步生成的特征矩阵,利用互信息进行特征筛选。 1.TF-IDF原理 TF-IDF是Term Frequency - ...

2019-08-12 15:10:53 31 0

原创 NLP基础 Task2 特征提取

基本文本处理技能 1.1 分词的概念(分词的正向最大、逆向最大、双向最大匹配法); 1.2 词、字符频率统计;(可以使用Python中的collections.Counter模块,也可以自己寻找其他好用的库) 概念 2.1 语言模型中unigram、bigram、trigram的概念; 2.2...

2019-08-12 14:30:53 33 0

原创 高级算法梳理 Task3 XGB

算法原理 损失函数 分裂结点算法 正则化 对缺失值处理 优缺点 应用场景 sklearn参数

2019-08-11 22:36:26 48 0

原创 高级算法梳理 Task2 GBDT

前向分布算法 负梯度拟合 损失函数 回归 二分类,多分类 正则化 优缺点 sklearn参数 应用场景

2019-08-11 21:45:22 21 0

原创 初级算法梳理 Task3 决策树

信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度) 2.决策树的不同分类算法(ID3算法、C4.5、CART分类树)的原理及应用场景 回归树原理 决策树防止过拟合手段 模型评估 sklearn参数详解,Python绘制决策树 ...

2019-08-11 20:40:10 22 0

原创 初级算法梳理 Task2 逻辑回归

【任务2 - 逻辑回归算法梳理】 1、逻辑回归与线性回归的联系与区别 2、 逻辑回归的原理 3、逻辑回归损失函数推导及优化 4、 正则化与模型评估指标 5、逻辑回归的优缺点 6、样本不均衡问题解决办法 7. sklearn参数 ...

2019-08-11 20:36:21 17 0

原创 Pytorch学习笔记 Task3 实现Logistic regression

PyTorch实现Logistic regression 1.PyTorch基础实现代码 2.用PyTorch类实现Logistic regression,torch.nn.module写网络结构

2019-08-11 20:09:50 32 0

原创 Pytorch学习笔记 Task2.1 numpy和pytorch实现梯度下降法

设立计算图并自动计算 1.numpy和pytorch实现梯度下降法 2.设定初始值 3.求取梯度 4.在梯度方向上进行参数的更新 5.numpy和pytorch实现线性回归 6.pytorch实现一个简单的神经网络 7.参考资料:PyTorch 中文文档 https://pytorch.apach...

2019-08-11 20:07:37 43 0

原创 高级算法梳理 Task1 随机森林

1.任务内容: 集成学习的概念 个体学习器的概念 boosting bagging的概念、异同点 理解不同的结合策略(平均法,投票法,学习法) 随机森林的思想 随机森林的推广 随机森林的优缺点 随机森林在sklearn中的参数解释 随机森林的应用场景 ...

2019-08-07 21:10:51 52 0

原创 NLP 理论实践 Task1数据集探索&NLP基本概念

1.数据集下载和探索 数据集:中、英文数据集各一份 1.1 中文数据集:THUCNews THUCNews数据子集:https://pan.baidu.com/s/1hugrfRu 密码:qfud 参考博客中的数据集部分和预处理部分: CNN字符级中文文本分类-基于TensorFlow实现 - ...

2019-08-07 19:11:02 48 0

原创 Pytorch学习笔记 Task1

1.什么是Pytorch,为什么选择Pytroch? 1.1 什么是PyTorch PyTorch 是Torch7 团队开发的,从它的名字就可以看出,其与Torch 的不同之处在于PyTorch 使用了Python 作为开发语言。所谓“Python first”,同样说明它是一个以Python 优...

2019-08-06 21:54:45 115 0

原创 《西瓜书》第九章 聚类 笔记

《西瓜书》第九章 聚类 笔记

2019-07-23 10:37:31 27 0

原创 《西瓜书》第八章 集成学习 笔记

《西瓜书》第八章 集成学习 笔记

2019-07-07 20:53:01 104 0

原创 《西瓜书》第七章 贝叶斯分类器 笔记

《西瓜书》第七章 贝叶斯分类器 笔记

2019-07-06 16:29:02 65 0

原创 NLP 理论实践 Task5 文本表示

NLP 理论实践 Task5 文本表示 词袋模型:离散、高维、稀疏。 分布式表示:连续、低维、稠密。word2vec词向量原理并实践,用来表示文本。 word2vec http://www.hankcs.com/nlp/word2vec.html word2vec 中的数学原理详解(一)目录和前言...

2019-07-03 21:00:31 26 0

原创 NLP 理论实践 Task4

朴素贝叶斯 朴素贝叶斯的原理 利用朴素贝叶斯模型进行文本分类 朴素贝叶SVM斯1 SVM模型 SVM的原理 利用SVM模型进行文本分类 LDA主题模型 pLSA、共轭先验分布 LDA 使用LDA生成主题特征,在之前特征的基础上加入主题特征进行文本分类 LDA数学八卦 lda2 合并特征 ...

2019-07-03 20:40:50 44 0

原创 NLP 理论实践 Task3 特征选择

Task3 TF-IDF原理。 文本矩阵化,使用词袋模型,以TF-IDF特征值为权重。(可以使用Python中TfidfTransformer库) 互信息的原理。 使用第二步生成的特征矩阵,利用互信息进行特征筛选。 TF-IDF 原理 TF-IDF(term frequency–inverse...

2019-06-27 20:36:16 34 0

原创 NLP 理论实践 Task2

一、.基本文本处理技能 正向最大匹配法 分词目标: 在词典中进行扫描,尽可能地选择与词典中最长单词匹配的词作为目标分词,然后进行下一次匹配。 算法流程: 从前往后取词,每次减一个字,直至词典命中或剩下1个单字。 假设词典中最长的单词为 5 个,那么最大匹配的起始子串字数也为 5 个 (1)从左往右...

2019-06-24 20:34:39 24 0

原创 NLP 理论实践 Task0 准备任务

IMDB 清华大学新闻语料

2019-06-24 20:19:22 37 0

原创 《西瓜书》第五章 神经网络 笔记

文章目录1. 概述2. 神经元模型3. 感知机与多层网络3.1 感知机3.2 多层前馈神经网络4. 误差逆传播算法(BP算法)4.1 BP算法具体推导4.2 标准BP算法和累积BP算法4.3 BP神经网络过拟合4.4 全局最小和局部最小5. 神经网络的各种常用算法5.1 RBF网络5.2 ART网...

2019-06-05 18:26:22 105 0

转载 《西瓜书》第六章 公式6.6 凸二次规划问题

1. 凸优化问题 对于一般的非线性规划,若目标函数是凸函数,约束集合 DDD 是凸集,则称该非线性规划是凸规划。 若上述约束规划中只含有不等式约束,又 ci(x)(i∈I)c_i(x)(i∈I)ci​(x)(i∈I)是凸函数,则约束集 DDD 是凸集。 对于混合约束问题,若 ci(x)(i∈E)...

2019-05-30 10:29:00 207 0

转载 《西瓜书》第六章 公式6.2推导 空间任一点到超平面的距离

在样本空间中,划分超平面可通过如下线性方程来描述:wTx+b=0(西瓜书,6.1) w^Tx+b=0 \quad\quad (西瓜书,6.1)wTx+b=0(西瓜书,6.1) 其中 w 决定了超平面的方向;b 为位移项,决定了超平面与原点之间的距离; 样本空间中,任意点x到超平面(w,b)的距离...

2019-05-29 19:12:59 1205 0

原创 《西瓜书》第六章 SVM支持向量机 笔记

文章目录6.1 间隔与支持向量6.2 对偶问题6.3 核函数6.4 软间隔与正则化6.5 支持向量回归6.6 核方法6.7 阅读材料6.8 总结6.9 参考资料 6.1 间隔与支持向量 超平面 支持向量 间隔 最大间隔 6.2 对偶问题 凸二次规划 对偶问题 支持向量机的一个重要性质 6.3 核函...

2019-05-27 14:25:56 201 0

原创 《西瓜书》第四章 决策树 笔记

《西瓜书》第四章 决策树 笔记 文章目录《西瓜书》第四章 决策树 笔记4.1 基本流程4.1.1 组成4.1.2 目的4.1.3 策略4.1.4 算法4.2 划分选择4.2.1信息增益-ID3决策树4.2.1.1 信息熵4.2.1.1 信息增益4.2.2 增益率-C4.5决策树4.2.3 基尼指数...

2019-05-22 17:07:09 154 0

原创 《西瓜书》第三章 线性模型 手写版笔记

《西瓜书》第三章 线性模型 手写版笔记 文章目录《西瓜书》第三章 线性模型 手写版笔记3.0 知识点总览3.1 线性回归(Linear Regression)求解的推导过程3.1.1 单变量线性回归3.1.2 多变量线性回归3.1.3 对数线性回归3.2 逻辑回归(Logistic Regress...

2019-05-15 11:11:52 239 0

转载 图像滤波器的分类与介绍

滤波器:主要两类:线性和非线性 线性滤波器:使用连续窗函数内像素加权和来实现滤波,同一模式的权重因子可以作用在每一个窗口内,即线性滤波器是空间不变的。 如果图像的不同部分使用不同的滤波权重因子,线性滤波器是空间可变的。因此可以使用卷积模板来实现滤波。 线性滤波器对去除高斯噪声有很好的效果。常用的线...

2019-04-26 10:50:55 1232 0

提示
确定要删除当前文章?
取消 删除