自然语言处理
文章平均质量分 96
自然语言理论和实践
优惠券已抵扣
余额抵扣
还需支付
¥99.90
¥299.90
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
ErbaoLiu
学习 分享
展开
-
机器学习实战—天猫用户重复购买预测
商家有时会在特定日期,例如节礼日(Boxing-day),黑色星期五或是双十一(11月11日)开展大型促销活动或者发放优惠券以吸引消费者,然而很多被吸引来的买家都是一次性消费者,这些促销活动可能对销售业绩的增长并没有长远帮助,因此为解决这个问题,商家需要识别出哪类消费者可以转化为重复购买者。通过对这些潜在的忠诚客户进行定位,商家可以大大降低促销成本,提高投资回报率(Return on Investment, ROI)。众所周知的是,在线投放广告时精准定位客户是件比较难的事情,尤其是针对新消费者的定位。原创 2024-09-18 22:27:02 · 233 阅读 · 0 评论 -
模型验证 — 交叉验证Cross Validation的方法
交叉验证(Cross Validation)是验证模型性能的一种统计分析方法,其基本思想是在某种意义下将原始数据进行分组,一部分作为模型的训练数据集(训练集),另一部分作为模型的验证数据集(验证集)。首先用训练集对模型进行训练,再利用验证集来测试训练得到的模型,以此来作为评价模型的性能指标。常用的交叉验证方法有简单交叉验证、K折交叉验证、留一法交叉验证和留P法交叉验证。本文以一个模拟的线性回归模型为例来介绍各种交叉验证方法。原创 2024-09-18 13:48:31 · 104 阅读 · 0 评论 -
Level3 — PART 3 — 自然语言处理与文本分析
N-Gram 分词分词及词性标注的难点法则式分词法。原创 2024-09-08 12:41:37 · 226 阅读 · 0 评论 -
隐马尔可夫模型(HMM)——从理论证明、算法实现到实际应用
实心圆之间的箭头,表示隐状态转移,比如图中的红色箭头,表示t-1时刻状态Y1,在t时刻转移为状态Y2。(1)对于时刻t=1,也就是第一天,可能的状态为{下雨,晴天},小宝第一天选择的是郊游,另外,从Start开始只有一条路径到达晴天,所以。的位置上,因为隐状态的初始分布式是已知的,而且隐状态到观测状态的概率也是已知的,所以此时你可沿着箭头方向向下走一步生成观测值。现在固定t时刻的状态,假设为。(下雨)=P(x1=郊游,y1=下雨)=P(x1=郊游|y1=下雨)P(y1=下雨)=0.1*0.6=0.06。原创 2020-03-16 13:17:12 · 4960 阅读 · 3 评论 -
拟合问题中偏差与方差分解公式证明
目录偏差(Bias)方差(Variance)模型总体误差(Error)偏差-方差分解公式偏差(Bias) 偏差是建立的模型本身导致的误差,比如错误的模型假设导致的误差,举个例子,在实际问题中,数据之间可能存在依赖关系,但是在建立模型时,我们假设数据之间是独立的,在这个错误的假设下建立的模型会导致误差。偏差是模型预测值的数学期望和真实值之间的差距: ...原创 2020-04-15 10:56:57 · 1446 阅读 · 0 评论 -
机器学习之朴素贝叶斯、高斯贝叶斯、伯努利贝叶斯和多项式贝叶斯分类器原理及源码分析
目录朴素贝叶斯模型离散估计极大似然估计概念和理论推导高斯贝叶斯分类器原理应用源码分析伯努利贝叶斯分类器原理源码分析多项朴素贝叶斯分类器MAP估计(Maximum APosteriori)朴素贝叶斯模型 假设有个数据,每一个数据由个特征构成,如下: feature_1 feature_2 ......原创 2018-12-29 19:58:35 · 1523 阅读 · 0 评论 -
机器学习之支持向量机SVM(理论基础)
本文符号约定参见《 机器学习之矩阵微积分及其性质》。考虑如下一般形式的约束优化问题(constrained optimization problem): ...原创 2018-12-22 01:44:52 · 2508 阅读 · 0 评论 -
线性回归之总离差平方和=回归平方和+残差平方和(TSS = ESS + RSS)及证明
缩写解释:1、TSS英文全称:Total Sum of Squares,中文全称:总离差平方和,或者总平方和2、ESSExplained Sum of Squares3、RSSResidual Sum of Squares...原创 2020-03-10 11:15:02 · 23610 阅读 · 0 评论 -
机器学习之线性回归极大似然估计法
请阅读《机器学习之矩阵微积分及其性质》和《机器学习之线性回归公式推导》。首先我们还是使用如下的数据: feature_1 feature_2 feature_n value 1 ... 2 ... . . . ...原创 2018-12-14 12:49:07 · 2070 阅读 · 2 评论 -
TensorFlow梯度下降法求解线性回归模型
详细代码如下:""" 线性回归模型数学表达式: y=c1*x_1+...+cn*x_n+e (1), e是一个服从正态分布的随机变量,即 e ~ N(u,sigma^2) 符号约定: (1)假设有m个数据,第i个数据xi记为xi=(x_i1,...,x_in),对应的y值记为yi,如下: ...原创 2020-03-12 22:03:49 · 398 阅读 · 0 评论 -
机器学习之EM算法原理及高斯混合模型
EM原创 2020-05-10 01:04:22 · 703 阅读 · 0 评论 -
机器学习之支持向量机SVM(完整版)
目录1 支持向量机简介2 线性可分支持向量机2.1 什么是线性可分2.2 什么是几何间隔2.3 最大几何间隔分离超平面2.4 支持向量和最大几何间隔3 线性支持向量机3.1 支持向量4 KKT条件和对偶问题4.1 线性可分支持向量机4.2 线性支持向量机5 非线性支持向量机5.1 非线性分类问题...原创 2018-12-20 20:02:34 · 3841 阅读 · 7 评论 -
循环神经网络(RNN)原理及BPTT算法
因循环神经网络基于ANN之上,理解ANN有助于理解RNN,所以阅读此文,建议先阅读。原创 2020-03-31 11:50:30 · 1386 阅读 · 1 评论 -
机器学习之逻辑回归原理
为了更好地理解本篇文章,建议读者优先阅读leboop整理的《机器学习之矩阵微积分及其性质》、《机器学习之线性回归公式推导》和《机器学习之线性回归极大似然估计法》。1、初始模型建立 假设获得了个数据,每一个数据由个特征构成,如下: feature_1 feature_2 feature_n value 1 ...原创 2018-12-16 23:20:42 · 418 阅读 · 0 评论 -
人工神经网络(ANN)原理、公式推导及TensorFlow代码实践
损失函数L可以理解成模型在输出层的预测误差,接着递推公式(4)将这个误差传递到了前一层的各个神经元,因为误差是引入了模型参数才引起的,最后这个误差被传递到了公式(2)和(3)表示的模型参数上。输出层的每个神经元也要对数据进行处理,对于输出层,本文采用的是该层只对数据线性加权处理,和隐藏层中神经元的第一步线性加权方式相同。细胞体是神经元的核心,它把各个树突传递过来的信号“加总”起来,形成一个总的刺激信号,这个总的信号会刺激与细胞体连着的轴突,当这个刺激信号超过某个强度阈值,轴突会将信号通过尾端连着的多个“原创 2020-03-27 13:26:32 · 1463 阅读 · 0 评论 -
AlexNet网络结构详解及TensorFlow代码实现
此文之目的,不在其他,而在加深个人对AlexNet之印象。AlexNet来自论文《ImageNet Classification with Deep Convolutional Neural Networks》。论文作者有Alex Krizhevsky,Ilya Sutskever,Geoffrey E. Hinton。有兴趣可查阅原文。AlexNet网络结构AlexNet...原创 2020-03-28 23:23:35 · 963 阅读 · 0 评论 -
机器学习之矩阵微积分及其性质
1、矩阵符号约定(1)标量:使用普通小写字母表示,例如;(2)列向量:使用加粗的小写字母来表示,比如等;(3)行向量:使用列向量的转置表示,例如;(4)矩阵:使用加粗的大写字母表示,比如等; 使用表示矩阵的第行和第列元素,也就是,即; 使用表示矩阵的第行; ...原创 2018-12-11 22:51:29 · 2105 阅读 · 5 评论 -
模型持久化方法(pickle和PMML)
pickle方式pickle方式应用场景:在python环境中训练模型,然后使用pickle将模型持久化为一个模型文件,然后就可以在python环境加载持久化后的模型文件对新数据进行预测。1、安装pickle模块pip install pickle2、代码示例pickle_demo.py模块完成了模型的训练,持久化和模型加载代码如下:"""pickle方式模型持久...原创 2020-03-11 11:07:58 · 1866 阅读 · 0 评论 -
机器学习之降维算法(PCA和LDA)
目录降维的例子主成分分析(Principal Components Analysis,PCA)线性判别分析(Linear Discriminant Analysis,LDA)降维的例子 很多时候给定的数据向量维数都很高,典型的一个例子就是自然语言处理中词的One-hot编码,编码后的向量维数和词典的大小相同,但是词典通常有十几万甚至更多的词,也就是一个词表示...原创 2020-05-08 19:34:39 · 641 阅读 · 1 评论 -
徒手实践深度学习完整项目(一)——图像识别(基于深度学习框架TensorFlow2.0、Keras,含构建原理、代码和部署细节)
目录CIFAR-10数据集简介项目环境项目实践项目部署CIFAR-10数据集简介 官网下载地址:《CRFAR-10数据集》 CIFAR-10数据集由Alex Krizhevsky, Vinod Nair和Geoffrey Hinton收集。如图:一共包含10 个类别的RGB 彩色图片:飞机( airplane )、汽车( aut...原创 2020-04-17 20:42:40 · 797 阅读 · 0 评论 -
Level3 — 集成学习 — 袋装法Bagging — 随机森林(Random Forest)
Bagging(Bootstrap Aggregating)算法是建立在一种随机抽样的基础之上的,这种随机抽样叫Boostrap Sample,自助抽样,有的地方也叫自助法。所以介绍Bagging算法之前需要介绍Bootstrap抽样。原创 2020-05-11 12:27:12 · 1056 阅读 · 1 评论 -
机器学习之梯度下降法(GD)、随机梯度下降法(SGD)和随机平均梯度下降法(SAGD)
无论是机器学习(Machine Learning),还是深度学习(Deep Learning)都为建好的模型构建一个损失函数,然后通过邱求解损失函数最小值。求解方法很多,梯度下降方法是其中一种。下面我们逐个介绍梯度下降法(GD)、随机梯度下降法(SGD)和随机平均梯度下降法(SAGD)。先来看梯度下降法的基本思想。基本原理 如果抛开具体场景,从数学抽象角度来看...原创 2020-04-07 13:22:53 · 1368 阅读 · 0 评论 -
机器学习常见模型评估指标详解(持续更新)
我们以二分类问题为例,表格如下: 真实值 1 0 预测值 1 TP FP 0 FN TN 表格中,1表示正样本,0表示负样本。TP表示真阳性(True Positive),FP表示伪阳性(False Positive),FN表示伪阴性(False Negative),TN表示真阴性(True Neg...原创 2020-05-06 18:33:21 · 661 阅读 · 0 评论 -
机器学习聚类之K-means算法
目录聚类K-means算法算法复杂度K值选择K-means算法收敛性聚类 聚类属于无监督学习问题,目标是将样本分成多个类别,保证类别内样本之间相似度高,类别间样本之间差异性高,这些类被称之为簇(cluster)。聚类是分类问题,它的目标是确定每个样本归属的类别,与有监督分类算法(比如SVM支持向量机)相比,这里的样本的类别初始是不知道的,而是通过聚类确定,但是类别个数可以人工设定。假设有一个样本集,含有个样本,如下:聚类其实是将样本集划分成一些不相交的样本子...原创 2020-05-09 14:06:28 · 417 阅读 · 0 评论 -
Level3 — PART 4 机器学习算法 — 集成学习
集成学习(Ensemble Learning)作为一种流行的机器学习,它通过在数据集上构建多个模型,并集成所有模型的分析预测结果。常见的集成学习算法包括:随机森林、梯度提升树、XGBoost等。集成学习的目标:通过考虑多个评估器的预测分析结果,汇总后得到一个综合的结果,以达到比单个模型更好的回归/分类性能的结果。多个模型集成的模型叫做集成评估器(ensemble estimator),其中的每个模型叫做基评估器(base estimator)。原创 2024-09-02 21:41:31 · 190 阅读 · 0 评论 -
Apache Mahout之协同过滤原理与实践
Apache Mahout之协同过滤原理与实践 读书时期,选课是令人怀念的,因为自由,学生可以挑选自己喜爱的课程和老师!然而,过程并不是很美好,“系统繁忙,稍后重试!”屡有发生,于是大伙开心地约定今夜不战不休。西门的七彩路,和网吧名一样,我们从门口路过,进的却是右旁的可媛。这里网页同样坚持“系统繁忙,稍后重试!”!去的人多了,也...原创 2018-08-10 12:10:35 · 1046 阅读 · 0 评论 -
机器学习之逻辑回归求解(梯度下降、随机梯度下降、随机平均梯度下降)
逻辑回归的原理请参见《机器学习之逻辑回归原理》。本篇文章对逻辑回归模型进行求解。先给出逻辑回归模型的两种形式:(形式1) ...原创 2019-01-02 18:06:04 · 2216 阅读 · 0 评论 -
从信息量到信息熵再到交叉熵(Cross Entropy)及TensorFlow实现细节
信息量 信息是个很抽象的概念。人们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到1948年,香农提出了“信息熵”的概念,才解决了对信息的量化度量问题。信息熵这个词是Shannon(香农)从热力学中借用过来的。热力学中的热熵是表示分子状态混乱程度的物理量,分子状态越混乱,熵值越高,分子状态越稳定,熵值越低。香农用信息...原创 2020-04-27 16:14:52 · 639 阅读 · 1 评论 -
sklearn.linear_model之LinearRegression核心源码解析
先来从LinearRegression的使用开始,代码如下:from sklearn import linear_model as lmimport numpy as npimport osimport pandas as pddef read_data(path): """ 使用pandas读取数据 """ return pd.read_csv...原创 2020-03-10 16:47:53 · 1141 阅读 · 0 评论 -
机器学习之决策树(ID3、C4.5、CART、剪枝)
假设有个数据,每一个数据由个特征构成,如下: feature_1 feature_2 feature_n value 1 ... 2 ... . . . . ...原创 2020-05-07 16:20:52 · 662 阅读 · 1 评论 -
机器学习之线性回归公式推导
本文符号约定参见《机器学习之矩阵微积分及其性质》。假设有个数据,每一个数据由个特征构成,如下: feature_1 feature_2 feature_n value 1 ... 2 ... . . . ...原创 2018-12-12 23:44:07 · 761 阅读 · 0 评论 -
Windows安装Theano问题解决
问题一'conda' 不是内部或外部命令,也不是可运行的程序 或批处理文件。解决办法(1)检查是否已经安装Anaconda3如果没有安装,下载地址:Anaconda Individual Edition,点击Download后,如图:安装对应的版本,我这边安装的是Python 3,7 64位。如果已经安装,可能是Anaconda3的环境变量没有配置,可进入安装目录...原创 2020-04-07 17:45:51 · 658 阅读 · 0 评论 -
Level3 — PART 4 — 机器学习算法 — 序列模式
在关联规则挖掘中,更关注项集和项集(或两个项)同时出现的关系,而忽略了数据中的序列信息,例如时间、空间等。序列模式挖掘(sequence pattern mining)最早是由Agrawal和Srikant提出的,它在关联规则基础之上,挖掘相对时间(空间)或其他模式出现频率高的模式,典型的应用还是限于离散型的序列。原创 2024-08-29 16:48:37 · 65 阅读 · 0 评论 -
Level3 — PART 4 — 机器学习算法 — 模型评估
目录模拟题CDA LEVEL III 模拟题(一)CDA LEVEL III 模拟题(二) 关于模型评估,读者可以阅读如下几篇文章:分类模型评估:第7章-使用统计方法进行变量有效性测试-7.5.4-模型评估-CSDN博客聚类模型评估:第9章-用户分群方法-聚类评估指标-CSDN博客回归模型评估:第7章-使用统计方法进行变量有效性测试-7.5-逻辑回归-CSDN博客第7章-使用统计方法进行变量有效性测试-7.4.2-多元线性回归-CSDN博客第7章-使用统计方法进行变量有效性测试-7.4.1-原创 2024-08-29 11:48:38 · 74 阅读 · 0 评论 -
Level3 — PART 4 — 机器学习算法 — 关联规则
Apriori算法是一种经典的关联规则数据挖掘算法,主要用于在给定数据集中发现频繁项集和关联规则。该算法最早是由Rakesh Agrawal等人在1993年提出的。最初提出的动机是针对购物篮分析问题提出的,其目的是为了发现交易数据库中不同商品之间的联系规则。这些规则可以刻画顾客的购买行为模式,对于商家来说,可以用来指导科学地安排进货、库存以及货架设计等。Apriori算法的名字来源于算法基于先验知识(prior knowledge)来压缩搜索空间,提高算法效率。原创 2024-08-28 16:10:07 · 122 阅读 · 0 评论 -
Level3 — PART 4 机器学习算法 — 朴素贝叶斯
贝叶斯定理由英国数学家发展,用来描述两个条件概率之间的关系,比如和和是两个随机事件。按照乘法法则,可以立刻导出:其中表示随机事件和随机事件同时发生的概率,表示在事件发生的情况下,事件发生的概率,类似地,表示在事件发生的情况下,事件发生的概率。原创 2024-08-24 15:06:29 · 404 阅读 · 0 评论 -
Level3 — PART 4 机器学习算法 — 决策树
决策树主要由节点和有向边构成,节点主要分为和(1)根结点(root node):没有入边,但有零条或多条出边(2)内部结点(internal node):恰有一条入边和 两条或多条出边(3)叶结点(leaf node):恰有一条入边,无出边。如图:虽然在一些资料中提到外部节点,但在决策树的基本构成中,外部节点并不是一个独立的节点类型。通常,叶节点已经涵盖了外部节点的概念,即它们是决策树的最终输出点。决策树既可以用来解决分类问题,也可以用来解决回归问题,通常分为和。原创 2024-08-27 16:22:27 · 251 阅读 · 0 评论 -
长短期记忆网络(LSTM)理解
长短期记忆网络(Long Short Term Memory Network)是建立在RNN基础之上的,理解RNN有助于理解LSTM网络,建议读者阅读。原创 2020-03-31 15:20:22 · 5614 阅读 · 1 评论 -
Level3 — 集成学习 — 提升法Boosting — AdaBoost
Boosting算法是一种集成学习算法。基本思想如下:先从初始训练集训练出一个基学习器,再根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的样本在后续受到更多关注,然后基于调整后的样本分布训练下一个基学习器,如此重复进行,直到基学习器数据达到事先指定的值T,最终将这T个基学习器进行加权结合。与Bagging算法相同的是:(1)它们都是一类算法的抽象框架,(2)都由多个弱学习器组成,(3 )每个弱学习器对样本都有一个预测值,最后综合每个弱分类器的结果得到最终的预测值。原创 2020-05-11 21:27:27 · 693 阅读 · 1 评论 -
智能聊天系统——Attention Mechanism(注意力机制)
目录什么是AttentionEncoder-DecoderLuongAttentionGlobal AttentionLocal AttentionBahdanau Attention什么是Attention selectively focusing on parts of the source sentence。Encoder-Decod...原创 2020-04-21 16:02:40 · 667 阅读 · 0 评论