WMM_123456-CSDN博客

TAR模型（门限自回归模型）TAR模型的实质是分段的AR模型，，它的基本思路是，在观测时序{xix_ixi}的取值范围内引入l−1l-1l−1个门限值rir_iri(iii=1,2,…l−1l-1l−1),将该范围分成lll个区间，可用r0r_0r0,rlr_lrl分别表示上界和下界，并根据延迟步数ddd将{xix_ixi}按{xi−dx_{i-d}xi−d}值的大小分配到不同的门限区间内，再对区间内的{xix_ixi}采用不同的自回归模型（AR模型），从而形成时间序列的非线性动态描述，其模

2021-11-08 15:22:15 1353

原创 2021-11-08

时间序列算法—P阶自回归模型包括AR,MA和ARIMAARAR（p）模型平稳的等价差别条件是该AP§模型的自回归系数多项式的根都在单位圆以外。平稳AR§模型的自相关系数具有两个显著的性质，即拖尾性和府直属衰减性。由于是平稳的，所以pk始终有非零取值，不会在k大于某个常熟后就恒等于0，这个性质就是拖尾性，实际上xt之前的给个序列值xt-1,xt-2,…都会对xt构成影响，自回归的这中特征体现在自相关系数上就是自相关系数的拖尾性。另外，方程是一个p阶其次差分方程，那么之后任意k阶的自相关系数的通解

2021-11-08 11:39:13 1033

原创 colab使用

1，网址：https://colab.research.google.com2，挂载到自己的云盘from google.colab import drivedrive.mount("/content/drive")#文件路径import osols.chdir("/content/drive/My Drive/Colab Notebooks/")3，查看文件!ls4,确认环境是否安装成功！+环境5，新建文件打开“我的云盘硬盘”，新建---更多---google c

2021-01-23 18:42:17 231

原创 python_抠图

首先在remove官网注册账号,获取API地址from removebg import RemoveBgimport osrmbg = RemoveBg("mid9DALnQhYqcFxfmUjPm1HX", "error.log")#API地址path = os.path.join(os.getcwd(),'images')#图片放到程序的同级文件夹images 里面

2021-01-23 16:08:50 161

原创 3.2 AutoRec-单层神经网络推荐模型

AutoRec模型是一个标准的自编码器原理：利用协同过滤中的共现矩阵，完成物品向量或者用户向量的自编码。在利用自编码的结果得到用户对物品的预估评分，进而进行推荐排序。得到AutoRec模型的重建函数后，再经过评分预估和排序的过程得到最终的推荐列表。AutoRec模型结构输入：物品的评分向量输出：多分类层V和W分别代表输入层到隐层，以及隐层到输出层的参数矩阵。重建函数：为防止过拟合，在加入L2zhengzehua hou ,AutoRec目标工具函数的具体形式如下：AutoRec模型是一

2020-08-04 21:15:06 378

原创 LightGBM工具

参数boostting_type：训练方式，gbdtobjective：目标函数，可以是binary,regressionmetric：评估指标，可以选择auc mse binary_logloss multi_losslearning_rate：学习率max_depth ：树的最大深度，当模型过拟合时，可以降低max_depthmin_data_in_leaf：叶子节点最小记录数，默认20Bagging参数：bagging_faction+bagging_fre...

2020-08-02 18:11:03 298

原创 XGBoost工具

参数分为：通用参数：对系统进行控制Booster参数：控制每一步的booster(tree/regression)学习目标参数：控制训练目标的表现通用参数：booster：模型选择，

2020-08-02 17:26:59 413

原创 SVM工具

SVC:支持向量分类SCR:支持向量回归sklearn中支持向量分类有三种方法,SVC,NuSVC,LinearSVCSVC:支持向量分类NuSCV:核支持向量分类，与SVC类似，不同的是可以使用参数来控制支持向量的个数。LinearSVC线性支持向量分类，使用核函数是linear参数：C:惩罚系数，类似LR中的正则化系数，C越大，惩罚越大，nu:代表训练集的错误率的上限（NuSVC）kernel：核函数的类型，RBF,Linear,Poly,Sigmoidprecomputed:默认为

2020-08-02 12:24:42 408

原创 LR工具

参数：penalty:惩罚项，正则化参数，防止过拟合,l1或l2，defult=l2c:正则化系数的倒数，float类型，defult=1.0solver:损失函数优化方法，liblinear(defult), lbfgs, newton-cg, sagrandom_state,随机数种子max_iter,孙发收敛的最大迭代次数，defult=100verbose=0:日志冗长度int：冗长度：0：不输出训练过程；1：偶尔输出；>1对每个子模型都输出n_jobs=1:并行数.

2020-08-02 12:02:38 255

原创牛顿迭代法~x的平方根

牛顿迭代法原理：（迭代的本质找出xi斜率与x轴的交点）牛顿迭代法的本质是借助泰勒级数，从初始值开始快速向零点逼近，任取一个初始值x0，在每一步迭代中，找到xi的斜率直线与x轴交点所对应的横坐标。公式推导过程：代码：def mypow(x): if x==0: return 0 x0,C=float(x),float(x) while True: xi=0.5(x0+C/x0) if abs(xi-x0)<

2020-07-29 21:51:25 465

原创 3.1 深度学习推荐模型的演化关系图

（1）改变神经网络的复杂程度：从最简单的单层神经网络模型（AutoRec），到经典的深度神经网络结构（Deep Crossing），其主要的进化方式在于---增加了深度神经网络的层数和结构复杂度。（2）改变特征交叉方式：这类模型的主要改变在于丰富了深度学习网络中的特征交叉的方式。例如，改变了用户向量和物品向量互操作方式的NCF,定义了多种特生向量交叉操作的PNN模型。（3）组合模型：这类模型主要是指Wide&Deep模型及其后续变种等，其思路是通过组合两种不同特点、优势互补的深度学习网络..

2020-06-10 16:43:36 1109 1

原创模型总结

模型名称基本原理特点局限性协同过滤根据用户的行为历史生成用户-物品的贡献矩阵原理简单、直接，应用广泛泛化能力差，处理稀疏矩阵利用用户性死刑和物...

2020-06-06 17:48:30 547

原创深度学习-----------2.6（GBDT+LR，LS-PLM）

模型：GBDT+LRGBDT自动进行特征筛选和组合，进而生成新的离散特征向量，再把该特征向量当做LR模型的输入，预估CTR的模型结构。GBDT构建特征工程，利用LR预估CTR这是两步独立的。GBDT是由多棵回归树组成的树林，后一颗树以前一颗树的结果与真实值的残差作为拟合目标，每棵树生成的过程是一颗标准的回归树生成过程，因此回归树种每个节点的分裂是一个自然的特征选择的过程，而多层节点的结果则对特征进行了有效的自动组合，也就非常高效的解决了过去棘手的特征选择和特征组合的问题。决策树的深度决定了二

2020-06-06 17:12:26 656

原创深度学习-----------2.5（从FM到FFM）

自动特征交叉2.5.1 POLY2模型——特征交叉的开始POLY2模型的数学形式：可以看到，该模型对所有特征进行量量交叉（xj1,xj2），并对所有的特征组合赋予权重wh(j1,j2)，POLY2通过暴力组合的方式，一定程度上解决了特征组合的问题，但是它仍旧属于线性模型，其训练方法与逻辑回归并无区别，因此便于工程上的兼容性。但是POLY2存在缺陷：1，数据稀疏导致特征无法进行交叉。2，权重参数的数量由n直接上升到n2极大的增加了训练的复杂度。2.5.2 FM——隐向...

2020-06-02 17:34:09 308

原创深度学习----------2.4（融合多种特征的推荐模型）

融合多种特征的推荐模型相比协同过滤推荐模型，逻辑回归模型能够总和利用物品、用户、上下文等多种不同的特征，生成较为全面的推荐结果。因此能够进行多种特征融合的逻辑回归模型成了独立于协同过滤推荐模型发展的另一个方向。逻辑回归模型将推荐问题转换成了一个点击率（CTR）预估问题。2.4.1基于逻辑回归模型的推荐流程1，将用户年龄、性别、职业、物品属性、当前时间、当前地点等特征成数值型特征向量。2，确定逻辑回归模型的优化目标，利用已有的样本数据对逻辑回归模型进行训练，确定逻辑回归的内部参数。3，在模

2020-06-02 16:56:26 2361

原创深度学习---------2.3

矩阵分解算法为每个用户和物品生成一个隐向量，将用户和视频定位到隐向量空间中，距离相近的用户和视频表名兴趣点相近，就一年将距离相近的视频推荐给目标用户。矩阵分解算法框架：...

2020-06-01 18:17:20 1061

原创深度学习推荐系统-----2.2

协同过滤---经典的推荐算法2.1 协同过滤推荐的大致推荐过程：1，电商网站的商品库里一共四间商品：游戏机，某小说，某杂志和某品牌电视机2，用户X访问电商库，电商库的推荐系统需要决定是否推荐电视机给用户X3，为便于计算，将有向图转成共现矩阵4，生成共现矩阵之后，推荐问题就转成了预测矩阵中的问号元素的值的问题。5，从共现矩阵中选取top-N进行推荐6，相似用户对电视机的评价是负面，因此可以预测目标用户对电视机的评价也是负面。2.2 用户相似度计算协同过滤推...

2020-06-01 16:32:01 393

原创深度学习推荐系统-----1

推荐系统进化之路传统推荐模型的演化关系图传统推荐模型的发展主要由以下几部分组成1，协同过滤算法族：仅利用用户和物品之间的显示或隐式反馈信息，包括基于用户的协同过滤（UserCF)，基于物品的协同过滤（ItemCF)，矩阵分解模型(MF)，以及衍生出的各个矩阵分解模型的分支2，逻辑回归族：逻辑回归能够利用和融合更多的用户、物品以及上下文特征。从LR模型衍生出的模型，包括增强了非线性能力的大规模分片线性模型，由逻辑回归发展出来的FM模型，以及与多种不同模型配合使用后的组合模型。..

2020-05-28 18:25:36 454

原创 SVM

间隔与支持向量机目的：在样本空间中找到一个划分超平面，将不同类别的样本分开。在样本空间中，超平面的方程可以通过线性方程来表示 1w=(w1,w2…wd)为法向量，决定超平面的方向，b为位移项，决定了超平面与远点之间的距离。样本空间中任意一点到该平面的距离为： 2设超平面（w,b）能将训练样本正确分类，即对于（wi,yi）属于D,若取值为+/-1 ...

2020-04-05 20:11:32 300

原创 office2019(office默认路径安装)的mathtype安装

将mathtype的E:\MathType\MathPage\32下的文件MathPage.wll和E:\MathType\Office Support\64路径下的MathType Commands 6 For Word 2013.dotm与MathType AddIn (PowerPoint 2013).ppam【ppt里面的mathtype安装】【word2010\2013\2019任意一个...

2020-04-05 17:11:54 4204

原创决策树

决策树从训练数据中学习得出一个类似于流程图的树形结构，有根、子节点、叶子、深度等概念。每个子节点表示在一个属性上的测试，每个叶子节点表示一种决策结果。决策树的生成有两个阶段组成：1，如何选择属性（顺序、连续属性的离散化、阈值）2，剪枝：许多分支反映的是训练数据中的噪声和孤立点，可以剪去。决策树的意义：1，分析分类结果与各个属性之间的内在联系，形成模型。2，运用模型对未知样本进行分类预测。决...

2020-04-05 14:49:14 1050

原创 Task5 模型融合---Stacking/Blending

内容介绍简单加权融合: 回归（分类概率）：算术平均融合（Arithmetic mean），几何平均融合（Geometric mean）；分类：投票（Voting) 综合：排序融合(Rank averaging)，log融2 2. stacking/blending: 构建多层模型，并利用预测结果再拟合预测 3. boo...

2020-04-03 20:08:42 460

原创 Task4 建模与调参

1，建模流程1，线性回归模型：线性回归对于特征的要求；处理长尾分布；理解线性回归模型；2，模型性能验证：评价函数与目标函数；交叉验证方法；留一验证方法；针对时间序列问题的验证；绘制学习率曲线；绘制验证曲线；3，嵌入式特征选择：Lasso回归；Ridge回归；决策树；4，模型对比：常用线性模型；常用非线性模型；模型调参：贪心调参方法；网...

2020-03-31 20:46:42 220

原创 Task3 特征工程

3特征工程数据清洗目的：提高数据的质量，降低算法用错误的数据建模型风险1，特征变换：模型无法处理或不适合处理定性变量编码：Label Encoder; Onehot Encoder; Distribution Encoder;标准化和归一化：分数标准化（标准正态分布），min-max归一化缺失值处理：增加不确定性，可能会导致不可靠的输出不处理：少来那个样本缺失删除：大量样...

2020-03-27 21:40:38 185

原创 Task02 零基础入门数据挖掘--数据分析

EDA-数据探索性分析EDA的作用对已有数据在尽量减少先验假设下通过作图制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法，常用的手段包括仃阿凌分析和可视化技术。步骤如下：1，载入各种数据科学以及可视化库：数据科学库 pandas、numpy、scipy;可视化库matplotlib、seaborn;seaborn是一个基于matplotlib的数据可视化库，他...

2020-03-24 21:39:15 178

原创 DBSCAN-密度聚类

DNSCAN有几个点需要理解清楚：核心点：在半径eps邻域内含有超过minpts数目的点，则为核心点，这些点都在簇内。边界点在半径eps邻域内含有小于minpts数目的点，则为边界点，这些点都在核心的邻居。噪声点不是核心点和边界点的点核心对象如果对象的Eps邻域至少包含最小数目MinPts的对象，则称该对象为核心对象。eps邻域给定对象半径Eps内的邻域称为该对象的Ep...

2020-03-21 14:14:40 802

原创 K-means与K-medoids

K-means(K-均值)由簇中样本的均值代表整个簇，而K-medoids(K-中心点)由处在簇中心区域的某个样本代表整个簇。K-means聚类：基本思想：初始随机给定k个簇中心，按着最近邻原则把待分类样本点分到各个簇中，单后按照平均法重新计算各个簇的质心，从而确定新的簇心，一直迭代，直到簇心的移动小于给定的值，或者达到最大迭代次数。优缺点：优点：1，可扩展性好，算法复杂...

2020-03-21 13:33:54 1584

原创多分类学习

本质：将多分类学习任务拆为若干个二分类任务求解，先对问题进行拆分，然后将拆出的每个问题进行二分类任务训练成一个分类器，在测试时对这些分类期预测结果进行集成以获得最终的多分类结果。经典的拆分方法有三种：一对一(OvO)，一对剩余(OvR)，多对多(MvM)。OvO:将N个类别两两配对，从而产生N(N-1)/2个分类任务。eg:将类别区分为Ci和Cj，训练一个分类器，该分类器将D中的Ci划分为...

2020-03-21 09:30:33 744

原创面试题12. 矩阵中的路径

题目描述：请设计一个函数，用来判断在一个矩阵中是否存在一条包含某字符串所有字符的路径。路径可以从矩阵中的任意一格开始，每一步可以在矩阵中向左、右、上、下移动一格。如果一条路径经过了矩阵的某一格，那么该路径不能再次进入该格子。例如，在下面的3×4的矩阵中包含一条字符串“bfce”的路径（路径中的字母用加粗标出）。[["a","b","c","e"],["s","f","c","s"],[...

2020-03-20 21:36:59 209

原创 409.最长回文def longsetP(s): a = set(s) b = list(a) oddc = 0 flag = 0 for i in rang串

题目：给定一个包含大写字母和小写字母的字符串，找到通过这些字母构造成的最长的回文串。在构造过程中，请注意区分大小写。比如"Aa"不能当做一个回文字符串。思路：将字符为奇数的个数都减去，只保留一个奇数个数。def longsetP(s): a = set(s) b = list(a) oddc = 0 flag = 0 for i in ra...

2020-03-19 20:40:06 202

原创逻辑回归

回归是分类算法，逻辑回归是对连续值的预测。逻辑回归分析是对定性变量的回归分析。线性回归模型：例如，在致癌因素的研究中，手机了若干人的健康记录，包括年龄、性别、抽烟史等等，响应在这里是一个亮点（0-1）分布变量，Y=1(得癌症)，Y=0(不得癌症)，按1式建立线性模型，Y只能取0或者1，而的取值是连续的，对于0-1型变量，E(Y)=P(Y=1)=P因此，可以用来预测Y=1的概率，即...

2020-03-18 20:47:12 785

原创梯度下降算法

梯度下降算法是一种求解局部最优的方法。对于F(x)在a点的梯度是F(x)增长最快的方向，那么他的相反方向则是该点下降最快的方向。梯度下降算法分为批量梯度下降BGD(Batch Gradient Descent)、随机梯度下降SGD(Stochastic Gradient Descent)和小批量梯度下降MBGD(Mini-Batch Gradient Descent)目标函数：步骤...

2020-03-17 21:27:29 1240

原创多元线性回归

多元线性回归的本质是最小二乘多元线性方程：其中x为m*(n+1)维矩阵目标函数：代码实现：#y = theta0+theta1*x1+theta2x2x_train = [[1, 0., 3], [1, 1., 3], [1, 2., 3], [1, 3., 2], [1, 4., 4]]# y[i] 样本点对应的输出y_train = [95....

2020-03-17 17:48:55 276

原创一元线性回归模型

回归：回归问题分两个过程：模型的学习和预测。基于给定的训练数据构建一个模型，根据新的输入数据输出预测值。回归问题的类型，按照输入变量的个数分为：一元回归和多元回归；按照输入变量和输出变量之间关系的类型，分为：线性回归和非线性回归。一元线性回归：回归分析只涉及到两个变量，主要是从两个变量中的一个变量取估计另一个变量，被估计的变量称为因变量，设为Y，估计出的变量成为自变量，设为X，回归...

2020-03-17 16:27:38 2723

原创 LeetCode面试题04.二维数组中的查找

题目描述：在一个 n * m 的二维数组中，每一行都按照从左到右递增的顺序排序，每一列都按照从上到下递增的顺序排序。请完成一个函数，输入这样的一个二维数组和一个整数，判断数组中是否含有该整数。思路：1，利用行递增和列递增的性质，用每行的第一个元素flag进行判断2，当flag>target时，target一定在矩阵flag所在行的上方，行减一3，当flag<target...

2020-03-16 20:56:21 217

原创 LeetCode 面试题01.06.字符串压缩

题目描述：字符串压缩。利用字符重复出现的次数，编写一种方法，实现基本的字符串压缩功能。比如，字符串aabcccccaaa会变为a2b1c5a3。若“压缩”后的字符串没有变短，则返回原先的字符串。你可以假设字符串中只包含大小写英文字母（a至z）。思路：1，当字符串为空时，返回字符串2，定义一个字符串，两个变量i=j=03,当S[j]=S[i],j加1，遍历字符串，当S[j]!=S[j...

2020-03-16 20:32:28 326

原创 LeetCode.最长上升子序列

思路：1，如果数组为0，返回02，创建等长的数组dp[1,1,…1,1]，值为1，每个数都可看成自己的上升子序列。3，遍历数组两遍（1，n）,和（0，i）,当nums[i]>nums[j]时满足条件，记录dp[i]=max[dp[i],dp[j+1]]（如数组[1,2,3,1,6,15],则dp为[1,2,3,1,4,5]）4,返回dp的最大值，...

2020-03-14 23:10:21 148

原创 KNN

核心思想：一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这类别上样本的特性。KNN算法的结果很大程度上取决于K的选择。算法的三要素：1，K值得选择；2，距离度量的方式；3，分类决策规则K值的选择：没有一个固定的经验，一般根据样本的分布，选择一个较小的值，可以通过交叉验证选择一个合适的K值。选择较小的K值：就相当于用较小的领域中的训练实例进行预...

2020-02-17 14:09:37 217

空空如也

空空如也