笔记
甲壳剑齿鸟
蓝翔毕业数据挖掘汪
展开
-
《西瓜书》第四章 决策树 笔记
《西瓜书》第四章 决策树 笔记文章目录《西瓜书》第四章 决策树 笔记4.1 基本流程4.1.1 组成4.1.2 目的4.1.3 策略4.1.4 算法4.2 划分选择4.2.1信息增益-ID3决策树4.2.1.1 信息熵4.2.1.1 信息增益4.2.2 增益率-C4.5决策树4.2.3 基尼指数-CART决策树4.2.3.1 基尼值4.2.3.2 基尼指数4.3 剪枝处理4.3.1 预剪枝4.3...原创 2019-05-22 17:07:09 · 1188 阅读 · 0 评论 -
NLP论文研读 Task1 ELMO
研究动机,研究方法,实验结果,创新点,个人点评ELMO 是 Embeddings from Language Models 的缩写,即语言模型的词向量表示,也是利用了深度上下文单词表征,该模型的优点:(1)能够处理单词用法中的复杂特性(比如句法和语义)(2)这些用法在不同的语言上下文中如何变化(比如为词的多义性建模)。...原创 2019-08-14 15:50:27 · 180 阅读 · 0 评论 -
NLP论文研读-Denoising Distantly Supervised Open-Domain Question Answering
研究动机,研究方法,实验结果,创新点,个人点评原创 2019-08-14 20:14:07 · 210 阅读 · 0 评论 -
Pytorch学习笔记 Task4 实现多层网络
1.引入模块,读取数据2.构建计算图(构建网络模型)3.损失函数与优化器4.开始训练模型5.对训练的模型预测结果进行评估原创 2019-08-23 20:51:45 · 157 阅读 · 0 评论 -
Pytorch学习笔记 Task6 理解更多神经网络优化方法
1.了解不同优化器2.书写优化器代码3.Momentum4.二维优化,随机梯度下降法进行优化实现5.Ada自适应梯度调节法6.RMSProp7.Adam8.PyTorch种优化器选择原创 2019-08-23 20:52:39 · 110 阅读 · 0 评论 -
Pytorch学习笔记 Task5 实现L1,L2正则化以及Dropout
1.了解知道Dropout原理2.用代码实现正则化(L1、L2、Dropout)3.Dropout的numpy实现4.PyTorch中实现dropout5.参考资料:PyTorch 中文文档原创 2019-08-23 20:54:48 · 190 阅读 · 0 评论 -
Pytorch学习笔记 Task7 实现手写数字识别
用PyTorch完成手写数字识别原创 2019-08-23 20:55:25 · 106 阅读 · 0 评论 -
Pytorch学习笔记 Task2.1 numpy和pytorch实现梯度下降法
设立计算图并自动计算1.numpy和pytorch实现梯度下降法2.设定初始值3.求取梯度4.在梯度方向上进行参数的更新5.numpy和pytorch实现线性回归6.pytorch实现一个简单的神经网络7.参考资料:PyTorch 中文文档 https://pytorch.apachecn.org/docs/1.0/...原创 2019-08-11 20:07:37 · 239 阅读 · 0 评论 -
Pytorch学习笔记 Task3 实现Logistic regression
PyTorch实现Logistic regression1.PyTorch基础实现代码2.用PyTorch类实现Logistic regression,torch.nn.module写网络结构原创 2019-08-11 20:09:50 · 107 阅读 · 0 评论 -
初级算法梳理 Task2 逻辑回归
【任务2 - 逻辑回归算法梳理】1、逻辑回归与线性回归的联系与区别2、 逻辑回归的原理3、逻辑回归损失函数推导及优化4、 正则化与模型评估指标5、逻辑回归的优缺点6、样本不均衡问题解决办法 7. sklearn参数...原创 2019-08-11 20:36:21 · 125 阅读 · 0 评论 -
初级算法梳理 Task3 决策树
信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度) 2.决策树的不同分类算法(ID3算法、C4.5、CART分类树)的原理及应用场景回归树原理决策树防止过拟合手段模型评估sklearn参数详解,Python绘制决策树...原创 2019-08-11 20:40:10 · 112 阅读 · 0 评论 -
高级算法梳理 Task2 GBDT
前向分布算法负梯度拟合损失函数回归二分类,多分类正则化优缺点sklearn参数应用场景原创 2019-08-11 21:45:22 · 84 阅读 · 0 评论 -
高级算法梳理 Task3 XGB
算法原理损失函数分裂结点算法正则化对缺失值处理优缺点应用场景sklearn参数原创 2019-08-11 22:36:26 · 347 阅读 · 0 评论 -
NLP基础 Task3 特征选择
0.任务描述TF-IDF原理。文本矩阵化,使用词袋模型,以TF-IDF特征值为权重。(可以使用Python中TfidfTransformer库)互信息的原理。使用第二步生成的特征矩阵,利用互信息进行特征筛选。1.TF-IDF原理TF-IDF是Term Frequency - Inverse Document Frequency的缩写,即“词频-逆文本频率”。它由两部分组成,T...原创 2019-08-12 15:10:53 · 274 阅读 · 0 评论 -
NLP基础 Task4 朴素贝叶斯 SVM LDA
1,朴素贝叶斯朴素贝叶斯的原理利用朴素贝叶斯模型进行文本分类2,SVM模型SVM的原理利用SVM模型进行文本分类3,LDA主题模型pLSA、共轭先验分布LDA使用LDA生成主题特征,在之前特征的基础上加入主题特征进行文本分类LDA数学八卦 lda2 合并特征...原创 2019-08-13 11:43:38 · 125 阅读 · 0 评论 -
NLP论文研读 Task1 ELMO模型调试笔记
模型地址,模型运行环境,数据集选择与下载,模型运行步骤,问题与解决方法汇总,个人点评原创 2019-08-14 15:49:16 · 146 阅读 · 0 评论 -
高级算法梳理 Task1 随机森林
1.任务内容:集成学习的概念个体学习器的概念boosting bagging的概念、异同点理解不同的结合策略(平均法,投票法,学习法)随机森林的思想随机森林的推广随机森林的优缺点随机森林在sklearn中的参数解释随机森林的应用场景...原创 2019-08-07 21:10:51 · 163 阅读 · 0 评论 -
NLP 理论实践 Task1数据集探索&NLP基本概念
1.数据集下载和探索数据集:中、英文数据集各一份1.1 中文数据集:THUCNewsTHUCNews数据子集:https://pan.baidu.com/s/1hugrfRu 密码:qfud参考博客中的数据集部分和预处理部分:CNN字符级中文文本分类-基于TensorFlow实现 - 一蓑烟雨 - CSDN博客参考代码1.2 英文数据集:IMDB数据集IMDB英文数据集:IMD...原创 2019-08-07 19:11:02 · 285 阅读 · 0 评论 -
《西瓜书》第三章 线性模型 手写版笔记
《西瓜书》第三章 线性模型 手写版笔记文章目录《西瓜书》第三章 线性模型 手写版笔记3.0 知识点总览3.1 线性回归(Linear Regression)求解的推导过程3.1.1 单变量线性回归3.1.2 多变量线性回归3.1.3 对数线性回归3.2 逻辑回归(Logistic Regression)3.3 线性判别(LDA)3.4 多分类学习的拆分策略3.5 处理类别不平衡问题三种方法3....原创 2019-05-15 11:11:52 · 1711 阅读 · 0 评论 -
《西瓜书》第六章 SVM支持向量机 笔记
文章目录6.1 间隔与支持向量6.2 对偶问题6.3 核函数6.4 软间隔与正则化6.5 支持向量回归6.6 核方法6.7 阅读材料6.8 总结6.9 参考资料6.1 间隔与支持向量超平面支持向量间隔最大间隔6.2 对偶问题凸二次规划对偶问题支持向量机的一个重要性质6.3 核函数支持向量展开式核函数定理常用的核函数6.4 软间隔与正则化软间隔替代损失松弛变量正则...原创 2019-05-27 14:25:56 · 1308 阅读 · 0 评论 -
《西瓜书》笔记汇总
《西瓜书》第三章 线性模型 手写版笔记《西瓜书》第四章 决策树 笔记《西瓜书》第六章 SVM支持向量机 笔记《西瓜书》第六章 公式6.2推导 空间任一点到超平面的距离《西瓜书》第六章 公式6.6 凸二次规划问题...原创 2019-05-30 21:00:58 · 4216 阅读 · 0 评论 -
《西瓜书》第五章 神经网络 笔记
文章目录1. 概述2. 神经元模型3. 感知机与多层网络3.1 感知机3.2 多层前馈神经网络4. 误差逆传播算法(BP算法)4.1 BP算法具体推导4.2 标准BP算法和累积BP算法4.3 BP神经网络过拟合4.4 全局最小和局部最小5. 神经网络的各种常用算法5.1 RBF网络5.2 ART网络5.3 SOM网络5.4 级联相关网络5.5 Elman网络5.6 Boltzmann机6. 深度学...原创 2019-06-05 18:26:22 · 584 阅读 · 0 评论 -
《西瓜书》第八章 集成学习 笔记
《西瓜书》第八章 集成学习 笔记原创 2019-07-07 20:53:01 · 406 阅读 · 0 评论 -
NLP 理论实践 Task0 准备任务
IMDB清华大学新闻语料原创 2019-06-24 20:19:22 · 141 阅读 · 0 评论 -
NLP 理论实践 Task2
一、.基本文本处理技能正向最大匹配法分词目标:在词典中进行扫描,尽可能地选择与词典中最长单词匹配的词作为目标分词,然后进行下一次匹配。算法流程:从前往后取词,每次减一个字,直至词典命中或剩下1个单字。假设词典中最长的单词为 5 个,那么最大匹配的起始子串字数也为 5 个(1)从左往右读入子串,扫描字典,测试读入的子串是否在字典中(2)如果存在,则从输入中删除掉该子串,重新按照规则取...原创 2019-06-24 20:34:39 · 123 阅读 · 0 评论 -
NLP 理论实践 Task3 特征选择
Task3TF-IDF原理。文本矩阵化,使用词袋模型,以TF-IDF特征值为权重。(可以使用Python中TfidfTransformer库)互信息的原理。使用第二步生成的特征矩阵,利用互信息进行特征筛选。TF-IDF 原理TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种...原创 2019-06-27 20:36:16 · 198 阅读 · 0 评论 -
NLP 理论实践 Task4
朴素贝叶斯朴素贝叶斯的原理利用朴素贝叶斯模型进行文本分类朴素贝叶SVM斯1SVM模型SVM的原理利用SVM模型进行文本分类LDA主题模型pLSA、共轭先验分布LDA使用LDA生成主题特征,在之前特征的基础上加入主题特征进行文本分类LDA数学八卦 lda2 合并特征...原创 2019-07-03 20:40:50 · 128 阅读 · 0 评论 -
NLP 理论实践 Task5 文本表示
NLP 理论实践 Task5 文本表示词袋模型:离散、高维、稀疏。分布式表示:连续、低维、稠密。word2vec词向量原理并实践,用来表示文本。word2vec http://www.hankcs.com/nlp/word2vec.htmlword2vec 中的数学原理详解(一)目录和前言 - peghoty - CSDN博客 https://blog.csdn.net/itplus/a...原创 2019-07-03 21:00:31 · 125 阅读 · 0 评论 -
《西瓜书》第七章 贝叶斯分类器 笔记
《西瓜书》第七章 贝叶斯分类器 笔记原创 2019-07-06 16:29:02 · 341 阅读 · 0 评论 -
《西瓜书》第九章 聚类 笔记
《西瓜书》第九章 聚类 笔记原创 2019-07-23 10:37:31 · 252 阅读 · 0 评论 -
高级算法梳理 Task4 LightGBM
任务描述LightGBM 介绍LightGBM 起源Histogram VS pre-sortedleaf-wise VS level-wise特征并行和数据并行顺序访问梯度支持类别特征应用场景sklearn参数CatBoost(了解)...原创 2019-08-13 15:05:54 · 111 阅读 · 0 评论 -
Pytorch学习笔记 Task1
1.什么是Pytorch,为什么选择Pytroch?1.1 什么是PyTorchPyTorch 是Torch7 团队开发的,从它的名字就可以看出,其与Torch 的不同之处在于PyTorch 使用了Python 作为开发语言。所谓“Python first”,同样说明它是一个以Python 优先的深度学习框架,不仅能够实现强大的GPU 加速,同时还支持动态神经网络,这是现在很多主流框架比如Te...原创 2019-08-06 21:54:45 · 348 阅读 · 0 评论 -
Pytorch学习笔记 Task2.2 pytorch实现线性回归
1 pytorch 实现线性回归from torch.autograd import Variablefrom torch.utils.data import TensorDataset, DataLoader""" Pytorch Dataset/TensorDataset和Dataloader https://www.jianshu.com/p/3fa75db88387"""i...原创 2019-08-26 18:52:42 · 161 阅读 · 0 评论