傃偞-CSDN博客

原创数据分布

离散分布常见的离散分布有二项分布、泊松分布、几何分布、负二项分布和多项分布等。事件的结果往往只有两个。例如：抛硬币，正面朝上的结果只有两个：国徽或面值；检查某个产品的质量，其结果只有两个：合格或不合格；连续分布的伯努利分布事件的结果往往只有两个。例如：检查某个产品的质量，其结果只有两个：合格或不合格。其概率质量函数为：P(x)=px(1-p){1-x}= \begin{cases} p & \text{if xxx=1} \ q & \text{if xxx=0} \.

2020-05-21 16:23:21 2093

原创各种算法的假设条件

逻辑回归逻辑回归假设数据服从伯努利分布，通过极大似然函数的方法，运用梯度下降来求解参数，来达到将数据二分类的目的。假设条件：1、target variable应该服从伯努利分布。2、独立性，各观察对象之间是相互独立的。3、Logit 函数与自变量之间的关系是线性的。当自变量为分类变量时，不需要考虑。但当自变量是连续性的变量或者等级的，需要检验该条件是否成立。条件不成立时，需要考虑变量变换。...

2020-05-21 15:24:16 539

原创 xgboost并行计算

boosting不是一种串行的结构吗?xgboost怎么可以实现并行的？xgboost的并行不是tree粒度的并行，xgboost也是一次迭代完才能进行下一次迭代的（第t次迭代的代价函数里包含了前面t-1次迭代的预测值）。xgboost的并行是在特征粒度上的。我们知道，决策树的学习最耗时的一个步骤就是对特征的值进行排序（因为要确定最佳分割点），xgboost在训练之前，预先对数据进行了排序，然后保存为block结构，后面的迭代中重复地使用这个结构，大大减小计算量。这个block结构也使得并行成为了可能，在

2020-05-21 11:15:31 2230

转载 Embedding小结

几个比较有用的关于Embeddings的博客链接EmbeddingsEmbedding：一个映射，将单词从原先所属的空间映射到新的多维空间中，也就是把原先词所在空间嵌入到一个新的空间中去。Word2VecWord2Vec：通过学习文本来用词向量的方式表征词的语义信息，即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。Word2Vec的模型Word2Vec模型中，主要有S...

2019-06-27 20:47:15 430

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 数据分布

原创 各种算法的假设条件

原创 xgboost并行计算

转载 Embedding小结

空空如也

空空如也

原创数据分布

原创各种算法的假设条件