机器学习
机器学习
FocusOneThread
ACL/NAACL/EMNLP审稿人,
金庸群侠传MOD大侠梦/曹操传MOD禾下霸业作者
展开
-
transformer feature importance // 取transformer的特征重要性
即一个句子的每个token的对预测结果的贡献度:原创 2023-07-31 09:16:17 · 253 阅读 · 0 评论 -
加一个特征的前提是 这个特征确实能影响到很多target
我们的类目体系里,如果定义了 男生健身器材 和 女生健身器材,而不是统一只有一个 健身器材 的类目,那么这个标签初步看是有效果的。有这个标签的商品 和无这个标签的商品 的时候,它的target-label是否受到影响。这时,到底应不应该加一种标签 作为新特征加入到item类目分类模型的输入里呢?如果一个商品是杠铃,它的标签是男生,另一个商品也是杠铃,它的标签是女生,还一个商品也是杠铃,它的标签为空,item有它的一些属性/标签,但是不是每个item都有标签,比如item类目分类,原创 2023-05-09 17:40:42 · 670 阅读 · 0 评论 -
多分类问题的one-vs-rest和one-vs-one的是否选择
结论是,其实没有必要用原创 2023-01-18 17:03:27 · 412 阅读 · 0 评论 -
数据分布不均匀,或有重复数据,影响的只是每个数据的学习率
进一步就是相当于 这些重复的数据的学习率大了原创 2023-01-03 20:24:44 · 297 阅读 · 0 评论 -
Kaggle 机器学习竞赛冠军及优胜者的源代码汇总
http://www.baidu.com/s?wd=Kaggle机器学习竞赛冠军及优胜者的源代码汇总转载 2016-01-12 15:59:22 · 2102 阅读 · 0 评论 -
kaggle titanic 入门实例 逻辑回归的使用 & 随机森林的使用
#coding:utf-8import numpy as npimport pandas as pdtrain = pd.read_csv("./csv/train.csv", dtype={"Age": np.float64},)test = pd.read_csv("./csv/test.csv", dtype={"Age": np.float64},)def harmonize_data原创 2016-01-11 11:58:47 · 3666 阅读 · 0 评论 -
kaggle titanic 入门实例 基于性别的预测
#coding:utf-8#https://www.kaggle.com/c/titanic/details/getting-started-with-pythonimport csv as csv import numpy as npcsv_file_object = csv.reader(open('./csv/train.csv', 'rb')) header = csv_fi原创 2016-01-07 10:19:28 · 1385 阅读 · 0 评论 -
PRML学习笔记--似然函数到底是什么
似然函数原创 2022-11-24 19:56:26 · 170 阅读 · 0 评论 -
KL divergence 的 Scala 实现
val log2: Double = Math.log(2); val EPS = 1e-10 def klDivergence(p11: Array[Double], p22: Array[Double]): Double = { var klDiv: Double = 0.0; val p1 = p11.map(one => (one + EPS)) val p2 = p22.map(one => (one + EPS)) for (i <..原创 2022-02-19 09:25:19 · 134 阅读 · 0 评论 -
KL divergence 的 Java 实现
public static final double log2 = Math.log(2); /** * *Note*: If any value in <tt>p2</tt> is <tt>0.0</tt> then the KL-divergence * is <tt>infinite</tt>. Limin changes it to zero instead of infinite. */原创 2022-02-19 09:10:12 · 223 阅读 · 0 评论 -
P(Y|X)公式与机器学习模型的理解
在 https://blog.csdn.net/jinping_shi/article/details/105583375 文章里,看到有P(Y|X)公式,却无法和机器学习模型联系起来,其实,P(Y|X)里的X是模型的输入,Y是模型的输出,P(Y|X)是输出为Y的概率,这时,模型的target是P(Y|X),也就是模型的target是一个(比如0到1的)概率,即是一个regression任务。...原创 2022-02-18 16:29:15 · 1944 阅读 · 0 评论 -
ICLR 2020 ENERGY BASED MODEL 摘要速览
YOUR CLASSIFIER IS SECRETLY AN ENERGY BASEDMODEL AND YOU SHOULD TREAT IT LIKE ONEhttps://openreview.net/group?id=ICLR.cc/2020/Conference#accept-talk引言discriminative分类器表示为 p(y|x),可以基于能量型模型 把它重新推导成...原创 2020-04-09 10:38:24 · 549 阅读 · 0 评论 -
矩阵分解的一些理解
attention matrix 是一个 [batch_size, sequence_len1, hidden_size] 的tensor和一个[batch_size, sequence_len2, hidden_size] 的tensor得到的[batch_size, sequence_len1, sequence_len2] 的tensor,反过来其实就是一个矩阵分解操作,[seque...原创 2020-04-03 15:01:26 · 356 阅读 · 0 评论 -
理解贝叶斯公式 P(A|B)P(B)=P(A)P(B|A)
贝叶斯公式应该画级联的图来理解明确P(A=0) = 0.5P(B=0|A=0) = 0.6P(B=0) = 0.6*0.5 + 0.25*0.6 + 0.25*0.6 = 0.6则应用贝叶斯公式P(A=0|B=0) = P(A=0)P(B=0|A=0) / P(B=0) = 0.5*0.6/0.6 = 0.5明确P(A=1) = 0.25P(B=0|A=1) = 0.6P(B...原创 2019-12-25 15:01:51 · 12391 阅读 · 0 评论 -
二分类问题 的 准确率、精确率、召回率、F1值、
准确率 - accuracy 精确率 - precision每条的统计由下图 然后原创 2018-05-30 17:29:59 · 8980 阅读 · 0 评论 -
xgboost 的 Precesion Recall F1 AUC ACC 混淆矩阵 计算
#省略……from sklearn.model_selection import train_test_splittrain_x, test_x, train_y, test_y = train_test_split(feature_matrix, labels, random_state=0)import xgboost as xgbdtrain=xgb.DMatrix(train...原创 2018-05-29 16:16:37 · 8734 阅读 · 0 评论 -
xgboost 特征重要性选择 / 看所有特征哪个重要
xgb_trained_model = xgb.train(params, train_xgb_split, 500, watch_list, early_stopping_rounds=50, verbose_eval=10)importance = xgb_trained_model.get_fscore()temp1 = []temp2 = []for k in importanc...原创 2018-06-06 16:05:47 · 13472 阅读 · 4 评论 -
xgboost 在一次训练中得到iteration里最好的模型,而不是最后一个iteration的模型
[240] train-logloss:0.263565 valid-logloss:0.392514[250] train-logloss:0.261231 valid-logloss:0.392377[260] train-logloss:0.257999 valid-logloss:0.392149[270] train-logloss:0.254814 val...原创 2018-06-07 16:55:09 · 2864 阅读 · 0 评论 -
xgboost / lightgbm for NLP 添加一些 写死的/hardcode 的比如同义词 “特征”/规则
two-text-match这个任务,如果我把"谁写的","谁的著作"这两个词看为同义词,则我强行指定 分别出现这两个词的 这对句子match程度为1如果我把"古代流放", "流放"不看成同义词,则我强行指定 分别出现这两个词的 这对句子match程度为-1然后add_data = train_x[train_x[&quo原创 2018-06-28 18:21:47 · 808 阅读 · 1 评论 -
xgboost CPP接口 实例
hw.c的内容:#include <iostream>#include <stdint.h>#include <xgboost/c_api.h>using namespace std;int main(int argc, char const *argv[]){cout << "Hello World!" << endl;...原创 2018-07-06 09:09:09 · 3750 阅读 · 0 评论 -
xgboost CPP接口 段错误
XGDMatrixCreateFromMat传入的数据有正特大或负特大的值原创 2018-07-13 12:00:21 · 1508 阅读 · 0 评论 -
讲蒙特卡洛树搜索最好的资料
看了这个懂的, https://www.bilibili.com/video/av29124979 25分钟左右的地方, 树的值是这局棋赢的概率,最后再根据输赢结果更新这棵树原创 2018-08-14 14:52:13 · 2707 阅读 · 0 评论 -
LDA 主题模型 通俗简单讲解
https://algobeans.com/2015/06/21/laymans-explanation-of-topic-modeling-with-lda-2/http://blog.echen.me/2011/08/22/introduction-to-latent-dirichlet-allocation/https://medium.com/@lettier/how-does-lda...转载 2018-11-26 11:48:03 · 608 阅读 · 0 评论 -
AUC 会随1/0 label数比例而变
import numpy as npfrom sklearn import metricsy_true = np.array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1])y_scores = np.array([0.1, 0.1,0.1,0.1,0.1,0.1, 0.1, 0.1, 0.1, 0.9, 0.9])print(metrics.roc_auc_scor...原创 2019-01-11 11:40:53 · 415 阅读 · 0 评论 -
python SVM 使用实例
import numpy as npX = np.array([[-1, -1], [-2, -1], [1, 1], [2, 1]])y = np.array([1, 1, 2, 2])from sklearn.svm import SVCclf = SVC(gamma='auto')clf.fit(X, y)print(clf.predict([[-0.8, -1]]))X =...原创 2019-08-13 11:28:16 · 1693 阅读 · 0 评论 -
交叉验证cross-validation 的概念
https://www.coursera.org/learn/machine-learning/home/week/6Model Selection and Train/Validation/Test Sets这节原创 2016-01-08 17:29:47 · 1362 阅读 · 0 评论 -
lightgbm 特征重要性选择 / 看所有特征哪个重要
print(pd.DataFrame({ 'column': feature_names, 'importance': lgb_trained_model.feature_importance(), }).sort_values(by='importance'))原创 2018-06-05 11:43:13 · 44338 阅读 · 13 评论 -
xgboost 二分类 选出最好的F1
from sklearn import metrics#valid_predict是0到1的值,未进行设定阈值划分为0和1precision, recall, thresholds = metrics.precision_recall_curve(valid_label, valid_predict)all_f1 = []for i in range(len(thresholds)): ...原创 2018-06-05 10:27:06 · 3057 阅读 · 1 评论 -
分类模型 训练数据不均匀
上采样是把小种类复制多份,下采样是从大众类中剔除一些样本原创 2018-04-24 15:37:44 · 1476 阅读 · 0 评论 -
Scikit Learn RandomForestClassifier 入门实例
from sklearn.ensemble import RandomForestClassifierdata=[[0,0,0],[1,1,1],[2,2,2],[1,1,1],[2,2,2],[3,3,3],[1,1,1],[4,4,4]]target=[0,1,2,1,2,3,1,4]rf = RandomForestClassifier()rf.fit(data,target)print原创 2016-06-02 16:45:49 · 8438 阅读 · 0 评论 -
Scikit Learn CountVectorizer 入门实例
http://stackoverflow.com/questions/27488446/scikit-learn-countvectorizerfrom sklearn.feature_extraction.text import CountVectorizertexts=["dog cat fish","dog cat cat","fish bird", 'bird']cv = CountVec原创 2016-06-02 15:38:25 · 16694 阅读 · 7 评论 -
Spark 非mllib实现的kmeans详解
https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/examples/SparkKMeans.scala// scalastyle:off printlnpackage org.apache.spark.examplesimport breeze.linalg.{Vector, D原创 2016-03-09 12:37:55 · 2251 阅读 · 0 评论 -
PRML 课后题答案 第一章 1.5 1.6
EEf=Ef 红箭头所指推导值得学习原创 2015-12-08 11:58:21 · 2088 阅读 · 0 评论 -
方差和偏差 与 过拟合和欠拟合
Variance and Bias原创 2016-01-08 18:02:30 · 4929 阅读 · 0 评论 -
理解P(B|A)、概率和条件概率、贝叶斯公式
右边 方形为1 左边 圆形A为1 所以对于贝叶斯公式的理解就是已知 B|A求A|B 可画图为原创 2015-11-25 13:53:53 · 17756 阅读 · 2 评论 -
7 Steps for becoming Deep Learning Expert 成为深度学习专家的七个步骤
https://www.linkedin.com/pulse/7-steps-becoming-deep-learning-expert-ankit-agarwal转载 2015-12-15 16:17:52 · 1214 阅读 · 0 评论 -
PRML 课后题答案 第一章 1.7
用到了 和极坐标转换原创 2015-12-09 10:31:59 · 2468 阅读 · 0 评论 -
Andrew Ng 机器学习 第一课 监督学习应用.梯度下降 笔记
简介:监督学习应用——自主推导,ALVINN系统,线性回归,梯度下降,组梯度下降,随机梯度下降,标准方程推导。原创 2015-10-30 10:46:24 · 1036 阅读 · 0 评论 -
笔记 of Andrew Ng , Linear Regression 和 Logistic Regression
欠拟合与过拟合的概念,参数化及非参数化算法概念,局部加权回归,对于线性模型的概率解释,Logistic回归,感知器。原创 2015-11-06 17:37:05 · 609 阅读 · 0 评论 -
Scikit Learn RandomForestRegressor 入门实例
from sklearn.ensemble import RandomForestRegressordata=[[0,0,0],[1,1,1],[2,2,2],[1,1,1],[2,2,2]]target=[0,1,2,1,2]rf = RandomForestRegressor()rf.fit(data, target)print rf.predict([[1,1,1]])#[ 0.9]原创 2016-06-02 16:34:44 · 14088 阅读 · 1 评论