- 博客(4)
- 收藏
- 关注
原创 数据分布
离散分布常见的离散分布有二项分布、泊松分布、几何分布、负二项分布和多项分布等。事件的结果往往只有两个。例如:抛硬币,正面朝上的结果只有两个:国徽或面值;检查某个产品的质量,其结果只有两个:合格或不合格;连续分布的伯努利分布事件的结果往往只有两个。例如:检查某个产品的质量,其结果只有两个:合格或不合格。其概率质量函数为:P(x)=px(1-p){1-x}= \begin{cases} p & \text{if xxx=1} \ q & \text{if xxx=0} \.
2020-05-21 16:23:21 2093
原创 各种算法的假设条件
逻辑回归逻辑回归假设数据服从伯努利分布,通过极大似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的。假设条件:1、target variable应该服从伯努利分布。2、独立性,各观察对象之间是相互独立的。3、Logit 函数与自变量之间的关系是线性的。当自变量为分类变量时,不需要考虑。但当自变量是连续性的变量或者等级的,需要检验该条件是否成立。条件不成立时,需要考虑变量变换。...
2020-05-21 15:24:16 539
原创 xgboost并行计算
boosting不是一种串行的结构吗?xgboost怎么可以实现并行的?xgboost的并行不是tree粒度的并行,xgboost也是一次迭代完才能进行下一次迭代的(第t次迭代的代价函数里包含了前面t-1次迭代的预测值)。xgboost的并行是在特征粒度上的。我们知道,决策树的学习最耗时的一个步骤就是对特征的值进行排序(因为要确定最佳分割点),xgboost在训练之前,预先对数据进行了排序,然后保存为block结构,后面的迭代中重复地使用这个结构,大大减小计算量。这个block结构也使得并行成为了可能,在
2020-05-21 11:15:31 2230
转载 Embedding小结
几个比较有用的关于Embeddings的博客链接EmbeddingsEmbedding:一个映射,将单词从原先所属的空间映射到新的多维空间中,也就是把原先词所在空间嵌入到一个新的空间中去。Word2VecWord2Vec:通过学习文本来用词向量的方式表征词的语义信息,即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。Word2Vec的模型Word2Vec模型中,主要有S...
2019-06-27 20:47:15 430
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人