自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 Java:hashcode()与equals()相关

hashCode()与equals()的相关规定先说equals(),equals()客观上应该是对==的补充,我们可以在重写时加入自定义的相等判断的逻辑,比如String.equals(),当两个String引用指向同一实例或者两个不同实例但是内容一致时,都相等再说哈希表,这个数据结构根据key值算出一个value值。根据key算出value这个结果在Java中即为得到内存中的索引位置,而这个索引位置就是hashcode()比如Java中的HashSet存储时,新加入的元素在hashcode()处

2022-02-22 16:44:22 190

原创 麦肯锡书籍读后感

麦肯锡方法读后感第一部分:尊重事实,不逃避,实事求是,善于收集小细节(重中之重)。MECE原则:将问题尽可能分解为若干互不重叠的子问题,注意抓住主要问题,再各个击破。要摒弃将初始提案作为最终答案的思想。事实随时可能打脸,思想要开发和灵活。攻克政治难关:求同存异,善于从别人的动机出发,让他们对方案的各方收益产生共识,如果需要,就对方案适当调整。运用二八法则:80%的销售额来自20%的代理人、80%的利润来自20%的产线。根据这个原则进行相应策略的调整。感觉意思就是尽量将一碗水端平。不要烧干大海:

2021-07-31 15:56:38 959

原创 spark-hadoop安装避坑&spark 开发环境避坑

1、在配置hadoop时不要将HADOOP_CONF_DIR加入到PATH中去,否则会造成只能从hdfs中读数,要从本地读数的就没了2、使用spark-submit时,jar包中(或脚本文件中)的master会覆盖shell的master参数,因此不用写shell中的master参数,但这样又会造成shell中的后续参数失效(不写或者与jar包中的master不一致会导致shell后续参数失效),因此这两处的mater必须一直!!!3、standalone模式下使用:–conf “spark.core

2020-12-16 20:48:49 295

原创 条件随机场

1、线性链条件随机场的参数化形式设 x 为观测序列,y 为隐藏序列2、条件随机场的简化形式这个形式实际上就是把每个特征函数对应的所有时间项聚合成一项。3、条件随机场的矩阵形式每个时刻 i 对应一个 m 阶的状态矩阵,m 为隐状态数,例如一个时序为 3 的序列:计算 Z 直接所有矩阵相乘即可,计算 P 按 y 对应时间状态从 Mi 中取出相应元素相乘即可。概率计算...

2020-04-11 16:40:11 212

原创 隐马尔可夫模型

关键词:隐藏序列观测序列参数:初始状态向量,隐状态转移概率矩阵,观测概率矩阵例子:《统计学习方法10.1》两个基本假设:目标:1、概率计算问题:下面的公式使用了两个基本假设而推导出来,不是纯概率公式为了降低时间复杂度,可使用前向算法或者后向算法,都能将时间复杂度降为O(N^2T),是动态规划的思想,推导过程也使用了两个基本假设,具体推导可看B站大佬的推导:https://...

2020-04-06 13:31:00 138

原创 最长公共子序列和子串

给出两个字符串:HelloWorld,loop最长子序列为:loo最长子串为:lo最长子序列:特点通常为不连续,从定义可得,这个矩阵的第一行和第一列都为0,而从第二行第二列往后的位置的值只跟之前左上方已经填写的值相关,因此开始用公式填写剩下的值。通过回溯查找的方式来拿出公共序列,其大致代码如下:最长公共子串:在定义上,动态规划的子问题 res [ i ] [ j ] 变为...

2020-03-20 23:32:25 174

原创 EM算法及推广

EM算法:

2020-03-15 22:50:24 200

原创 Adaboost与回归提升树

Adaboost:以2分类为例,其最终分类器模型为:即最终模型是由基本分类模型线性组合得到的,a 表示 G 在最终分类器中的重要性,所以 a > 0。其损失函数为,正确分类时为 (0,1) 取值,误分类为 (1,+∞)Adaboost将样本损失也看作样本权重**,令:样本权重与上一轮的模型有关,初始时置为1:总误差为:将总误差变形为:这个式子由于 w 可通过上轮模...

2020-03-07 17:28:19 472

原创 牛顿法与拟牛顿法

这两种方法在优化中使用到了目标函数的二阶导数信息,比一阶导数具有更快的收敛速度。牛顿法:目标为如下:将其展开为泰勒二阶形式,有如下近似相等:对两边同时求导,有:令导数为0,牛顿方向即为如下:重复此过程知道梯度信息小于阈值即可为收敛:其中:当 H 为正定矩阵时,牛顿法才有效(因为在 k 点附近函数为下凸的);当 |H| = 0 时,无法计算逆矩阵,此时无意义;当 H 负...

2020-02-27 17:26:56 263

原创 Jenson不等式

假设 f(x) 为下凸的(凹),由定义得:由此引入Jenson不等式:p(x)为 x 的概率密度函数。

2020-02-27 11:23:49 428

原创 机器学习之SVM

定义

2020-01-30 10:13:57 683

原创 等式约束与不等式约束(KKT)

以下为等式约束:以下为不等式约束,不等式约束可以类比等式约束,将不等式约束分为边界和内部两种情况考虑,再综合得出结论:其对偶函数为:求解条件(KKT条件)稍微有些变化:即最后得到的解必须符合上面6个条件,(2),(5)是等式约束必须满足的条件,剩下(1),(3),(4),(6)是不等式约束边界和内部两种情况的综合。...

2020-01-26 18:19:04 7372 1

原创 机器学习之最大熵模型

定义:

2020-01-23 17:11:41 231

原创 感知机对偶算法

感知机只能区分线性可分的数据集,当线性不可分时,SGD算法会发生震荡(随着梯度下降,总有样本未被正确分类),原始算法SGD的公式如下:在经过一系列SGD后,这一形式可以被写为如下,其中αi = niη,当η=1时,ai表示第i个误分类点的更新次数:因此,对于某个误分类点,有:梯度更新公式为:这里第一项等价于原始梯度下降公式的第一项,相当于该误分类点更新次数加1。这里的xjxi可...

2020-01-23 16:55:44 314

原创 逻辑斯蒂分类

直方图某种程度和概率密度函数是一致的,主要研究密度函数,一般不研究分布函数。下面这两个公式是离散的,非连续的,是离散信号,变更x时,实际是变更相应的特征空间。观察两个公式,数据集是某一个特征空间子集(x对应的空间)。本质是,找到参数w和b,尽量适用于所有的特征空间(共享)似然函数为:虽然把这两个分布都包含了进来,但是因为这两个事件是互斥的,所以计算时只可能出现其中一个。逻辑斯蒂多分...

2020-01-22 22:44:56 587

原创 决策树的生成与剪枝

从根节点开始,使用某种特征选取准则,如信息增益,选取剩余特征作为节点,树不一定是二叉树,每一层的节点为某个特征,每一层的节点个数为父节点特征的distinct数,每个节点对应的样本数小于父节点对应的样本数,当节点特征对应的信息增益小于某个值时,选择该节点对应样本中最大的类别作为叶节点,停止这个分支的构建。例题:参考《统计学习方法》李航 例5.3...

2020-01-20 18:20:17 258

原创 机器学习之信息论

条件熵:信息熵是对观测过程中变量的不确定性的度量,基本公式为:当X服从均匀分布时,H(x)取得最大值,这也符合感性认识。从公式可以看出,这是一个熵值的期望,约束为随机变量X,可理解为X约束下对H(Y)的影响,因此这种信息熵被记为H(Y|X)。信息增益:有上述公式,感性上容易得出H(Y)大于等于H(Y|X),因为提供了X的信息,Y的熵值应该变小或者不变,因此有信息增益:G越大,表示...

2020-01-19 14:01:44 482

原创 朴素贝叶斯法

基本假设为:预测公式为:所以从这个公式看得出,需要对类别概率和条件概率进行统计,最终选择后验概率最大的作为输出,因为对于所有的类别,分母部分是相同的,所以最终公式为分子取最大的类别:平滑的本质:平滑的本质是对训练数据集中那些概率为0的统计量分配一个基本的不为0的概率。...

2020-01-19 12:46:03 126

原创 KD树的构造与搜索

KNN的最简单实现方法是线性扫描,一个一个的去算距离,很明显这种方式的复杂度会很大,可通过KD树来降低复杂度。构造可参考:《统计学习方法》李航,算法3.2(构造平衡KD树)搜索可参考:《统计学习方法》李航,例3.3...

2020-01-19 11:13:54 217

原创 过拟合与正则化

过拟合:常见原因是特征维度过多解决方法:减少特征维度,比如通过正则化,达到降低参数值的目的,等价于降维L1正则化比L2正则化更容易产生稀疏参数值L1的罚项为1次函数,其偏导是常数,所以梯度下降时是稳定靠近最优值L2的罚项为2次函数,其偏导在最优值附近越来越小,所以梯度下降时越靠近最优值,收敛得越慢相比之下L1更容易稀疏...

2020-01-19 10:01:12 152

原创 机器学习之最小二乘法

这种解法但是通常会有很大的计算量,所以通常还可以通过某种迭代法来逼近最优解,如梯度法。

2020-01-17 19:22:49 236

原创 事件独立性的理解

2020-01-16 20:45:32 1983

原创 ClickOnce测试发布简述

最近老板出差,总结下VS下WPF项目的ClickOnce发布,这套流程感觉简捷明了,对于非大型项目还是比较实用,跟installshield,WixToolSet比起来很暴力。下面用一个WPF项目为例,通过IIS Express暴力部署:1、选择主项目签名,并将测试证书安装到测试机2、上传打包文件,可以上传至指定路径或者FTP站点,这里上传指定路径,然后选择IIS网点地址在“安装模式和设置”中可以...

2018-05-24 11:20:07 3695 1

原创 C# 类型转换笔记

这短时间,从入手C#,到完成之前的几个WPF的项目,一直忙着完善各种需求上的事,趁这几天老板出差,整理下思路,话不多说,进入正题。.Net的OOP模式下类型转换理论上为一下8种:父 = new 父子 = new 子父 = new 子子 = new 父父 = (父)子父 = (子)父子 = (父)子子 = (子)父前四种是隐式转换,后四种是显示转换,比如其中1,2,3

2016-11-11 15:43:41 352

原创 c#操作excel时出现COM异常,解决方法

之前再使用vs2013中操作excel总是出现异常:System.Runtime.InteropServices.COMException (0x80040154): 检索 COM 类工厂中 CLSID 为 {00024500-0000-0000-C000-000000000046} 的组件时失败,原因是出现以下错误: 80040154。后来发现是office版本不一致,我使用office

2016-06-13 13:59:50 4928

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除