schwt-CSDN博客

原创 matplotlib 画折线图

有三组数据，共用x轴。两组量纲相同，使用左侧纵轴刻度，第三组量纲不同，使用右侧Y轴刻度。import numpy as npfrom numpy import genfromtxtimport matplotlib.pyplot as pltf_avg = 'loss_avg.txt'f_los = 'loss_verify.txt'f_err = 'loss_error_verif...

2019-12-18 10:44:28 315 1

原创数据直方图脚本

#!/usr/bin/python#encoding:utf-8import sys from numpy import genfromtxtimport matplotlib.pyplot as plt nbins = 100file_in = sys.argv[1]file_out = sys.argv[2]data = genfromtxt(file_in)print...

2018-05-23 19:30:09 245

原创 bi-graph with Map-Reduce implementation

formular:Sij=1kρj∑uruirujkλud(tui,tuj)Sij=1kjρ∑uruirujkuλd(tui,tuj) S_{ij} = \frac 1 {k_j^\rho} \sum_u \frac {r_{ui} r_{uj}} {k_u^\lambda} d(t_{ui}, t_{uj}) d(t1,t2)=exp[−(t1−t2)22τ2]d(t1,t2)=exp⁡[...

2018-05-10 15:17:01 182

原创 ctr预估的负采样比率修正公式

p=c1p′−1+cp=c1p′−1+cp = \frac {c}{\frac 1 {p'} -1 +c}c∼(0,1]c∼(0,1]c \sim (0,1]：负样本采样比例。如果正负样本都采样，采样比分别为c1,c2c1,c2c_1, c_2, 则 c=c2/c1c=c2/c1c = c_2/c_1p′p′p'：使用有采样的样本预估的ctrppp：修正ctr（理论真实值）特...

2018-02-07 19:32:53 5463

原创常用值域变换公式

小结，持续更新1. 线性伸展

2017-11-29 10:55:58 5185

原创 word2vec 核心简记

word2vec 核心间记Huffman编码：用词频作为词权重，构造 Huffman 树生成的 Huffman 编码，满足语料库总编码长度的期望最短。（频率高的编码短，频率低的编码长）n-gram: (n-1)阶Markov假设：词概率只与它前面 n-1 个词有关。复杂度 O(Nn)O(N^n)。需要平滑（类似 Bayes) n=1n=1即是 unigram2 Hierarchic

2017-06-24 14:59:46 326

原创 boosting 方法

boosting方法

2015-11-10 17:41:21 612

原创排序比较指标

衡量两个次序的差异的指标1. FitnessF=1Z∑jwjα(|pi−qj|+1)+(1−α)pi" role="presentation">F=1Z∑jwjα(|pi−qj|+1)+(1−α)piF=1Z∑jwjα(|pi−qj|+1)+(1−α)pi F = \frac{1}{Z} \sum_j \frac{w

2015-10-28 12:34:06 1580

原创 FTRL 笔记

这篇笔记主要参考冯杨的五篇博客：在线最优化求解(Online Optimization)。因为对于在线学习方法，稀疏性问题需要特别关注：每次在线学习一个新 instance 的时候，优化方向并不一定是全局最优，不容易产生稀疏解，而简单截断又可能将从全局看不该稀疏掉的特征变为零。所以这里以 L1 正则为基础，比较几种在线学习算法。0，预备每个 instance 由特征向量和预测目标组成: (x,y)(

2015-10-28 12:05:50 774

原创 RBM (受限玻尔兹曼机)

1. 玻尔兹曼分布：p(E)∼e−E/kTp(E) \thicksim e^{-E/kT} 2. RBM两层：隐层和

2015-10-28 11:59:11 549

原创 Logistic Regression

一、说明一个最常见的分类算法.mm: 训练集个数nn: 特征个数训练集： {(x(1),y(1)),...,(x(i),y(i)),...,(x(m),y(m))}\{(\mathbf x^{(1)}, y^{(1)}), ..., (\mathbf x^{(i)}, y^{(i)}), ..., (\mathbf x^{(m)}, y^{(m)})\}.x(i)∈Rn, y(i)

2015-10-28 11:53:48 246

原创 SVD 的理论基础

本文从理论基础的角度梳理对SVD的理解，不涉及SVD的实现算法。

2015-10-28 11:36:44 449

原创 RankNet

RankNetRankNet 论文的笔记。原文： Learning to rank using gradient descent.

2015-09-29 00:20:24 743

schwt的博客