学术
予亭
活泼开朗,爱好广泛。
展开
-
Datawhale -数据挖掘 - task 1 : 数据探索与分析
前言参考博客原创 2019-08-06 19:54:58 · 311 阅读 · 0 评论 -
DatawhaleChina - Task 9 : Attention原理
前言基本的Attention原理。HAN的原理(Hierarchical Attention Networks)。利用Attention模型进行文本分类。Attention原理其实直接讲attention原理你应该是听不懂的,神经网络都是发展而来的,都是基于某种问题,而提出来某种方法来解决这类问题的,attention原理也是一样的,它也是因为某种原因提出来来解决这类问题的,我们来看看a...原创 2019-05-28 00:34:57 · 259 阅读 · 0 评论 -
DatawhaleChina -任务四 从one-hot到word2vec
前言开始了解了一下自然语言模型,一方面打卡。one-hotword2vec参考博客里有关于word2vec的内容,参考博客one-hot向量形式word2vec简单讲解+python gensim库使用...原创 2019-05-17 23:31:56 · 178 阅读 · 0 评论 -
DatawhaleChina - Task7 卷积神经网络
任务卷积运算的定义、动机(稀疏权重、参数共享、等变表示)。一维卷积运算和二维卷积运算。池化运算的定义、种类(最大池化、平均池化等)、动机。Text-CNN的原理。利用Text-CNN模型来进行文本分类。卷积运算池化运算Text-CNNText-CNN分类参考博客...原创 2019-05-22 23:07:59 · 246 阅读 · 0 评论 -
DatawhaleChina -任务二 通用特征提取+数据处理
利用TF-idf对数据进行处理bigram 特征提取原创 2019-05-13 09:13:49 · 342 阅读 · 0 评论 -
RNN:循环和递归神经网络
任务RNN的结构。循环神经网络的提出背景、优缺点。着重学习RNN的反向传播、RNN出现的问题(梯度问题、长期依赖问题)、BPTT算法。双向RNN递归神经网络LSTM、GRU的结构、提出背景、优缺点。针对梯度消失(LSTM等其他门控RNN)、梯度爆炸(梯度截断)的解决方案。Memory Network(自选)Text-RNN的原理。利用Text-RNN模型来进行文本分类。Recur...原创 2019-05-26 00:14:13 · 1368 阅读 · 0 评论 -
DatawhaleChina - Task6 神经网络基础
学习任务前馈神经网络、网络层数、输入层、隐藏层、输出层、隐藏单元、激活函数的概念。感知机相关;定义简单的几层网络(激活函数sigmoid),递归使用链式法则来实现反向传播。激活函数的种类以及各自的提出背景、优缺点。(和线性模型对比,线性模型的局限性,去线性化)深度学习中的正则化(参数范数惩罚:L1正则化、L2正则化;数据集增强;噪声添加;early stop;Dropout层)、正则化的介...原创 2019-05-22 00:40:22 · 107 阅读 · 0 评论 -
DatawhaleChina -任务一 IMDB数据集+THUCNews数据集
预备任务tensorflow 早已安装好,都有跑模型,莫烦先生的视频也都看了,基础知识有了解,都很OK。IMDB数据集下载和探索整体思路:特征特征就是 one-hot 形式,选取10000个频率在前的单词,然后对每一个文档处理成这10000维度的向量。文档里包含这个单词,向量中这个单词的索引位置就是1,否则就是0,总的样本空间就是 10000 * docNum。网络代码部分:...原创 2019-05-12 15:32:53 · 385 阅读 · 0 评论 -
DatawhaleChina -任务三 TF-IDF原理+互信息
前言打卡学习任务TF-IDF这个笔记早就做过了笔记,文章链接在TF-IDF方法提取文本特征–TfidfVectorizer 工具,虽然没有涉及到公式这类的,但是偏向实际,其他都可以百度得到。互信息...原创 2019-05-15 21:42:32 · 347 阅读 · 0 评论 -
天池大赛 - 特征提取 总结
特征特殊节日周末和工作日,或者节假日,这些都可以作为一个特征,但可能对于数据规模比较小的任务来说节假日可能没有什么用。但周末和周日的区分还是比较有用的。昨天数据昨天的数据也可以作为预测今天的依据,但是要考虑到周末和工作日。周期根据时间来找到一个周期,比如周一到周天,这样一个周期,或者当前时间前3天内的时间作为一个周期,来提取特征,此特征确定下来了就不会随着样本数据变大而做调整。平均...原创 2019-05-08 08:18:20 · 1482 阅读 · 0 评论 -
DatawhaleChina -Task 5 朴素贝叶斯,SVM模型,LDA主题模型
前言第五天的任务,花费时间两天,还好有些问题 已经搞定了,不然在这些任务有些吃力。朴素贝叶斯关于朴素贝叶斯我写了两篇文章,一篇是理论,一篇是实战,大家都可以看看:朴素贝叶斯理论–自我理解朴素贝叶斯实战-文本主题分类SVM这个最近也在学习,不过有些难,看了好几天的书,有一些问题还没解决。博客链接放上SVM-简单理解公式推导LDALDA是主题模型,以前有学习到,现在都有点忘记了,要...原创 2019-05-19 20:22:35 · 187 阅读 · 0 评论 -
Transformer的原理
前言这是第10个任务,本次任务主要是一下几个方面:Transformer的原理BERT的原理利用预训练的BERT模型将句子转换为句向量,进行文本分类1Transformer原理和大多数seq2seq模型一样,transformer的结构也是由encoder和decoder组成。EncoderEncoder由N=6个相同的layer组成,每一个layer就是上图左侧的单元,最左...原创 2019-05-29 00:33:59 · 3359 阅读 · 1 评论 -
最简单的讲解:梯度下降法
前言目前网上的一些博客讲解的太笼统了,没有讲解原理,让人一头雾气。梯度下降法其实还是比较简单的下降法,因为还有其他下降法,这些都是在数值分析课程中讲解的,悔恨啊,数值分析上过两次课,还是没听懂,现在才知道原来在机器学习中这么常用,本文从多个角度来讲解梯度下降法,帮助大家理解简单的一元函数所有的问题都是从简单到复杂,一步一步来解决复杂问题的,我们首先看下一元函数的情况,这个一元函数是专门为了讲...原创 2019-06-06 22:54:01 · 1647 阅读 · 0 评论 -
Datawhale -数据挖掘 - task2:特征衍生+特征挑选
任务说明特征衍生特征挑选:分别用IV值和随机森林等进行特征选择……以及你能想到特征工程处理特征衍生IV值随机森林参考博客原创 2019-08-08 09:53:31 · 1196 阅读 · 0 评论 -
基于内容的推荐算法详解+问题思考
参考博客推荐系统从入门到接着入门原创 2019-07-24 21:21:44 · 3680 阅读 · 0 评论 -
XGBoost详解+问题思考
前言参考博客原创 2019-07-19 10:18:25 · 1001 阅读 · 0 评论 -
判别模型与生成模型
我们知道一般学习任务都是提供两类数据:一是样本,二是样本的标签,其实机器学习的任务是从属性X预测标记Y,即求概率P(Y|X);对于判别式模型来说求得P(Y|X),对未见示例X,根据P(Y|X)可以求得标记Y,即可以直接判别出来,如上图的左边所示,实际是就是直接得到了判别边界,所以传统的、耳熟能详的机器学习算法如线性回归模型、支持向量机SVM等都是判别式模型,这些模型的特点都是输入属性X可以直接得...原创 2019-07-05 00:11:48 · 260 阅读 · 0 评论 -
梯度提升树(GBDT)的问题思考
前言提升树很多地方都没有详细讲解,所以我学的过程中有一些疑惑,这里把一些问题说清楚,了解清楚,希望让自己和他们都能熟悉。问题:分割点如何确定《统计学习方法》这本书中并没有详细讲解这个问题,但似乎默认就是穷举,我上网查了一些资料,有一些说法:1、基本的查找分割点的穷举算法这样的算法又被称为精确贪婪算法,在计算分割点的过程中,它会去查找进入当前分支的每一个样本的每一个特征值,计算它们的增...原创 2019-07-15 10:01:20 · 337 阅读 · 0 评论 -
EM算法 - 期望极大算法
前言EM算法是机器学习十大算法之一,它很简单,但是也同样很有深度,简单是因为它就分两步求解问题,E步:求期望(expectation)M步:求极大(maximization)深度在于它的数学推理涉及到比较繁杂的概率公式等,所以本文会介绍很多概率方面的知识,不懂的同学可以先去了解一些知识,当然本文也会尽可能的讲解清楚这些知识,讲的不好的地方麻烦大家评论指出,后续不断改进完善。EM算法引...原创 2019-07-04 09:46:21 · 686 阅读 · 1 评论 -
AdaBoost 算法:回归问题
前言在《统计学习方法》这本书中介绍了基于分类问题的AdaBoost方法,其中更新样本权重采用的是yi!=G(xi)y_i != G(x_i)yi!=G(xi),其实当时就思考这样一个问题:如果用于回归任务,那么这个更新样本权重该如何计算?本文基于此问题展开讨论。对此问题有疑问的请参考博客提升方法(boosting)和AdaBoost详解。AdaBoost 回归算法我们都知道回归预测得到...原创 2019-07-08 09:54:34 · 13279 阅读 · 22 评论 -
提升方法(boosting)和AdaBoost详解
概念提升方法是一种思想:针对一个任务,将多个专家的建议适当的综合起来来做判断,这样比一个单独的专家的判断更有力,类似于“三个臭皮匠顶个诸葛亮”。对于一个分类任务来讲,求解一个粗糙简单的弱分类器比求解精准分类的强分类器要简单的多,意思就是得到训练弱分类器比较简单,提升方法就是从弱分类器中不断的学习误差,再用弱分类器来学习误差,这样可以得到一系列的弱分类器,组合这些弱分类器得到一个强分类器,这就是...原创 2019-06-23 15:52:40 · 1316 阅读 · 0 评论 -
GBDT:全方面讲解提升树及问题思考 - 统计学习基础
前言提升树是以分类树或者回归树作为基本分类器的提升方法,提升树被认为是统计学习性能中最好的方法之一提升树模型提升方法采用决策树为弱分类器、学习算法为前向分布学习算法称为提升树,针对分类问题,采用二叉分类树,针对回归问题采用二叉回归树,提升树模型可以表示为决策树的加法模型:fm(x)=∑m=1mT(x,Θm)f_m(x)=\sum_{m=1}^{m}T(x,\Theta_{m})fm(...原创 2019-06-25 23:10:57 · 592 阅读 · 5 评论 -
Transformer 代码
前言讲解完了Transformer的原理,现在要实战一下,想通过小规模数据集来运行一个demo,来看看效果。代码讲解参考博客原创 2019-06-03 22:04:22 · 1932 阅读 · 0 评论 -
知识图谱全讲解 + 电商应用场景
前言读研的时候了解过知识图谱,现在想总结出来,方便自己和他人,本文章会从一下几个方面来讲解知识图谱:什么是知识图谱如何构建知识图谱现有的知识图谱知识图谱的应用知识图谱的发展什么是知识图谱知识图谱是谷歌在2012年提出来的,主要是为了解决谷歌搜索方面的问题,以前的搜索都是基于搜索关键词得到网页的信息,比如搜索“姚明的年龄”,得到的全是跟姚明有关的新闻、网页、等等,这些内容包含了一...原创 2019-04-26 00:03:37 · 12096 阅读 · 0 评论 -
统计学习方法 学习笔记
逻辑斯蒂回归(Logistic Regression)逻辑斯蒂回归(Logistic Regression)算法里这里就是利用公式来表示分类的概率,求这个概率最大,用一个梯度上升方法求得概率最大。别的方法都是梯度下降,他就是反过来,梯度上升,也挺有趣味。...原创 2019-03-26 15:53:57 · 129 阅读 · 0 评论 -
信息增益与信息增益比的区别
d### 前言在统计学习方法这本书中看到了一个公式:看到这个公式后的感觉就是这个很明显就没啥用的呀,对于每一个特征来说,因为分母都一样呀,主要还是看信息增益,后面去上网查了一下,好像公式有一点不一样,但是重点不是公式是什么,而是为什么要用信息增益比?难道信息增益不好吗?什么是信息增益比我们都知道ID3中是选择信息增益作为选特征作为节点的依据,但在C4.5中选择的是信息增益比,那这里肯定是...原创 2019-03-10 14:50:09 · 7728 阅读 · 2 评论 -
天池优惠卷预测--XGBoost训练模型
训练集经过上一个步骤之后,我们可以得到训练的特征数据集,这里一共有两个数据集,按日期分的,接下来利用训练集里得到模型。XGBoost模型这里讲解利用XGBoost模型来训练模型,首先需要在python中安装XGBoost,安装步骤如下: 1、anaconda search -t conda xgboost 2、conda install -c anaconda py-xgboo...原创 2018-08-25 15:12:52 · 1212 阅读 · 0 评论 -
天池-优惠卷预测大赛-模型预测
预测前一文中,我们得到了训练的XGBoost模型,现在利用这个模型来预测测试集1、引包import pandas as pdimport numpy as npimport xgboostimport matplotlib.pyplot as pltimport timeimport osimport sysimport jsonimport operator...原创 2018-08-25 15:11:58 · 568 阅读 · 0 评论 -
过拟合、欠拟合 -你需要了解的概念
过拟合一张图来说明过拟合: !图片 过拟合会造成模型变得复杂,并尽可能拟合训练集,造成在训练集上的准确率特别高,这里就会有一个问题就是:训练集是不靠谱的,其中有容错的数据。直接点,训练集中特别是十几万的数据,会有脏数据,这些脏数据也成为负样本,会造成模型训练有误差,模型在训练的时候并不清楚那些是脏数据,它只会不停的去拟合这些数据,所以过拟合的模型在训练集上准确率特别高,但在测试集上效果不是...原创 2018-08-27 21:26:20 · 15965 阅读 · 0 评论 -
天池--优惠卷预测比赛讲解-特征提取
前言一直想找了一个比较简单的比赛来找找机器学习方面应用的手感,我属于有一些基础知识的人,以前读研是主攻NLP的情感分析方面的,机器学习并没有系统的学习,于是在天池上找了一个相对简单的比赛练练手,希望可以帮助到刚刚入门的同学们,后面有源码分析,本文主要讲解特征提取,后续会不断完善。赛题介绍简单描述这个比赛:预测用户使用优惠卷的概率 提供的语料集大家去官网看下详情,其中训练集大概有几十万...原创 2018-08-18 14:13:55 · 1371 阅读 · 0 评论 -
随机森林实战教程-Python-Demo
前言随机森林Python版本有很可以调用的库,使用随机森林非常方便,主要用到以下的库: sklearn pandas numpy随机森林入门我们先通过一段代码来了解Python中如何使用随机森林。from sklearn.datasets import load_irisfrom sklearn.ensemble import RandomForestClassif...原创 2018-08-05 11:19:05 · 9975 阅读 · 5 评论 -
随机森林与决策树--机器学习
决策树决策树是机器学习最基本的模型,在不考虑其他复杂情况下,我们可以用一句话来描述决策树:如果得分大于等于60分,那么你及格了。这是一个最最简单的决策树的模型,我们把及格和没及格分别附上标签,及格(1),没及格(0),那么得到的决策树是这样的 这种就根据成绩来判断是最简单的,并且只有一个特征,这一个特征就把结果分隔开了,形成了两个类目,那么多个特征会怎么样? 此表中拥有多个特征...原创 2018-08-04 15:56:19 · 2019 阅读 · 0 评论 -
latex公式:列向量、矩阵、方程组
直降promtionPrice=skuPrice×(1−max(最大优惠额度)rule1000)promtionPrice=skuPrice×(1−max(最大优惠额度)rule1000)promtionPrice= skuPrice\times({1 -{ \frac{max(\text{最大优惠额度})}{rule_{1000}}}})...原创 2019-06-19 09:40:48 · 18840 阅读 · 0 评论 -
朴素贝叶斯理论--自我理解
例子-正向概率还是拿质检员的例子来做分析,假如我是一个质检员,现在接到了三箱零件需要检验,其中第一箱有10个零件,第二箱有20个零件,第三箱有15个。半小时过去了,检验的结果出炉,第一箱有1个不合格,第二箱有3个不合格,第三箱2个不合格。 箱子 总零件个数 不合格 A 10 1 B 20 3 C 15 2那现在我从...原创 2018-09-15 19:56:23 · 595 阅读 · 0 评论 -
信息熵与信息增益
前言熵在机器学习中用的非常普遍,但这个又难以理解,经常忘记,写一篇博客记录一下,也方便其他人学习了解。什么是熵一开始接触熵是大二的信息论,非常难的一门课,当时学的时候不知道这个东西有什么用,完全就不太想学,因为不知道干嘛,也不知道学了有什么用,但是现在很后悔,定义:熵也叫信息熵,可以表征随机变量分布的混乱程度,分布越混乱,则熵越大,简易的解释就是:在一个随机事件中,某个事件发生的不确定度越大...原创 2019-03-07 09:46:47 · 9458 阅读 · 4 评论 -
概率论中的期望、方差、正态分布
前言期望知乎-数学期望问题回答方差正太分布这篇文章非常好的讲解了正太分布所面临的问题,其中有实例的讲解了正太分布应用、变量各种变换后的正太分布情况,【程序员眼中的统计学(7)】正态分布的运用:正态之美...原创 2019-02-14 22:29:08 · 9054 阅读 · 3 评论 -
朴素贝叶斯实战-文本主题分类
前言本文采用的是BCDI2018汽车行业用户观点主题及情感识别任务中的语料集链接,这些语料集的格式如下:字段名称类型描述说明content_idInt数据ID/contentString文本内容/subjectString主题提取或依据上下文归纳出来的主题sentiment_valueInt情感分析分析出的情感sentim...原创 2018-12-16 13:00:46 · 1016 阅读 · 0 评论 -
word2vec简单讲解+python gensim库使用
词向量、word2vec、word embedding首先讲解一下词向量,词向量就是把一个词变成向量形式,这个向量形式可以表示这个词,在模型中直接用词向量作为这个单词的表示作为输入,因为算法模型是不清楚这些单词的,它只知道数字,所有的都是数字,所以词向量就是一个向量,一般是1*n维的行向量,word2vec字面理解就是将word转换为向量,所以word2vec也是用来将单词转换为词向量的一种方式...原创 2018-12-02 12:57:29 · 3466 阅读 · 0 评论 -
TF-IDF方法提取文本特征--TfidfVectorizer 工具
前言从基本的内容讲起,我们可以利用TF-IDF来提取文本特征,在python中有TfidfVectorizer这中工具可以方便我们使用,对所有样本分词,并且通过设置N-gram来获得特征,然后以这些词作为维度特征对每个样本向量化,最后到模型中训练,本文主要讲解TfidfVectorizer的使用,如何来使用这个工具。...原创 2018-11-23 00:14:08 · 12732 阅读 · 6 评论 -
tf.nn.dynamic_rnn返回值详解
前言最近在学习lstm,看代码中,首先注意力就集中在网络的输入、输出是什么,本篇主要介绍输出是什么,帮忙自己和大家理解。定义tf.nn.dynamicrnn(cell,inputs,sequencelength=None,initialstate=None,dtype=None,paralleliterations=None,swapmemory=False,timemajor=False,...原创 2018-11-05 09:50:50 · 1718 阅读 · 0 评论