
数据挖掘
Jump1024
AGI Never Stop
-
原创 AliCoCo 阅读笔记
论文名:AliCoCo: Alibaba E-commerce Cognitive Concept Net引言基本电商的图谱建设都是Category-Property-Value形式,Category是一颗树,其中Property就是 Category的叶子 下的属性。问题在于,用户通常不记得一个item的具体名字,而是只记得item的类别或者item其他相关信息。分类学taxonomy人工定义好taxonomy(分类学),domain有20种,主要的是Category, Brand, Colo2020-06-08 20:11:37291
0
-
原创 正则表达式 匹配任意零个到多个字符
import reprint(re.findall("防治.{1,2}动脉硬化","防治动脉硬化"))print(re.findall("防治.{1,2}动脉硬化","防治高血压动脉硬化"))print(re.findall("防治.{1,3}动脉硬化","防治高血压动脉硬化"))print(re.findall("防治.{1,4}动脉硬化","防治高血压动脉硬化"))prin...2020-03-12 18:05:571959
0
-
转载 pandas dataframe 取列名
DataFrame.columns.values.tolist()2018-07-17 19:37:0310907
0
-
原创 xgboost CPP接口 实例
hw.c的内容:#include <iostream>#include <stdint.h>#include <xgboost/c_api.h>using namespace std;int main(int argc, char const *argv[]){cout << "Hello World!" << endl;...2018-07-06 09:09:093073
0
-
原创 xgboost CPP接口 段错误
XGDMatrixCreateFromMat传入的数据有正特大或负特大的值2018-07-13 12:00:211345
0
-
转载 xgboost 设定每条数据的重要性
https://stackoverflow.com/questions/371677952018-07-25 12:21:441419
0
-
原创 xgboost CPP API 选用最好iteration的那个模型
就是训练了比如1000 iteration,但第666次是最好的模型,怎么用这第666 iteration的而不是最后一次iteration的模型? 在CPP API https://github.com/dmlc/xgboost/blob/master/include/xgboost/c_api.h 找了半天,就XGBoosterEvalOneIter接近解决这个问题, 尝试后,XGBoo...2018-07-25 17:58:541320
0
-
原创 “多线程”跑 xgboost CPP API
xgboost 0.72版本 将xgboost的CMakeList.txt里的openmp相关的删了 加锁pthread_mutex_lock(&amp;lock_); XGBoosterPredict(h_booster, h_test, 0, 0, &amp;out_len, &amp;f);pthread_mutex_unlock(&amp;lock_);...2018-08-03 17:44:261370
2
-
原创 xgboost 加速
https://github.com/dmlc/treelite2018-12-28 15:09:07584
0
-
原创 xgboost / lightgbm for NLP 添加一些 写死的/hardcode 的比如同义词 “特征”/规则
two-text-match这个任务,如果我把"谁写的","谁的著作"这两个词看为同义词,则我强行指定 分别出现这两个词的 这对句子match程度为1如果我把"古代流放", "流放"不看成同义词,则我强行指定 分别出现这两个词的 这对句子match程度为-1然后add_data = train_x[train_x[&quo2018-06-28 18:21:47640
1
-
原创 pandas 获取dataframe数据总量,总行数,一共多少数据,一共多少行
pd.DataFrame({"column0":column0_data}).shape[0]2018-06-28 17:09:3437187
0
-
原创 xgboost 二分类 选出最好的F1
from sklearn import metrics#valid_predict是0到1的值,未进行设定阈值划分为0和1precision, recall, thresholds = metrics.precision_recall_curve(valid_label, valid_predict)all_f1 = []for i in range(len(thresholds)): ...2018-06-05 10:27:062332
1
-
原创 xgboost 的 Precesion Recall F1 AUC ACC 混淆矩阵 计算
#省略……from sklearn.model_selection import train_test_splittrain_x, test_x, train_y, test_y = train_test_split(feature_matrix, labels, random_state=0)import xgboost as xgbdtrain=xgb.DMatrix(train...2018-05-29 16:16:375210
0
-
原创 二分类问题 的 准确率、精确率、召回率、F1值、
准确率 - accuracy 精确率 - precision每条的统计由下图 然后2018-05-30 17:29:596850
0
-
原创 pandas to_csv 最左边 多一列 的问题
df_train = pd.read_csv('data/train.csv',encoding='utf-8')df_train.to_csv(&amp;quot;train_preprocessed.csv&amp;quot;,encoding='utf-8',index=False)设置index=False2018-05-30 18:06:3612395
2
-
原创 xgboost 特征重要性选择 / 看所有特征哪个重要
xgb_trained_model = xgb.train(params, train_xgb_split, 500, watch_list, early_stopping_rounds=50, verbose_eval=10)importance = xgb_trained_model.get_fscore()temp1 = []temp2 = []for k in importanc...2018-06-06 16:05:4711561
4
-
原创 xgboost 在一次训练中得到iteration里最好的模型,而不是最后一个iteration的模型
[240] train-logloss:0.263565 valid-logloss:0.392514[250] train-logloss:0.261231 valid-logloss:0.392377[260] train-logloss:0.257999 valid-logloss:0.392149[270] train-logloss:0.254814 val...2018-06-07 16:55:091794
0
-
原创 pandas dataframe 整列置零 和 全部统一置零
add_data[add_data!=0]=0add_data[&amp;amp;quot;one_column&amp;amp;quot;]=12018-06-29 12:46:1812771
0
-
转载 pandas dataframe 同时操作两列 / 多列
def my_test(a, b): return a + bdf['value'] = df.apply(lambda row: my_test(row['c1'], row['c2']), axis=1)2018-07-02 17:46:3322853
0
-
原创 lightgbm 特征重要性选择 / 看所有特征哪个重要
print(pd.DataFrame({ 'column': feature_names, 'importance': lgb_trained_model.feature_importance(), }).sort_values(by='importance'))2018-06-05 11:43:1327002
11