![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python相关
文章平均质量分 53
ml_hhy
这个作者很懒,什么都没留下…
展开
-
半自动构造新特征
半自动构造新特征主要原理是通过groupby(C1).agg(func)[N1]的方式来创造新特征,实现特征交叉还需配合特征筛选使用有更好效果需要传入gby_cols 分组列,stati_cols 统计列,func_list 统计函数prefix_list的特征前缀可自行修改简单易懂,无多余功能,网上没看到类似函数,自行写一个# 半自动构造新特征class FeatureCombination(object): def __init__(self): # init原创 2020-05-19 14:40:14 · 217 阅读 · 0 评论 -
python 定义内部函数的好处
python 函数内部定义函数讲解:https://www.zhihu.com/question/25950466内部函数的写法(即在函数内部再定义函数)可以为内部的那个函数封存上下文为什么要内部函数呢?如下面这个例子如果不定义在内部的话,即是把expand_match定义在外部跟expand_test_contractions同级的话,那就要给expand_match再传入一个cont...原创 2019-12-13 15:52:14 · 1645 阅读 · 0 评论 -
xgboost调参经验
本文为kaggle上一位选手分享的xgboost调参经验的翻译。方便对xgboost模型参数的快速调试。原文:https://www.kaggle.com/c/bnp-paribas-cardif-claims-management/forums/t/19083/best-practices-for-parameter-tuning-on-models数据的划分:一般从训练集里划分20%作为验...转载 2019-10-11 22:29:29 · 2062 阅读 · 1 评论 -
python常用方法
默认值:if key in some_dict: value = some_dict[key]else: value = default_value# dict.get方法相当于上面那个默认值方法value = some_dict.get(key, default_value)转载 2018-07-10 15:06:52 · 259 阅读 · 0 评论 -
Linux离线安装pyspark与尝试使用pyspark连接数据库
首先第一步: 安装anconda(并且带上了pandas, numpy, scikit-learn)流程1, 首先安装anconda2./Anaconda2-5.2.0-Linux-x86_64.sh2, 配置全局变量vi /etc/profile将anaconda2的所在的bin加入到profile文件最后一行export PATH=/home/anaconda2/bin:$PATH...原创 2018-09-28 12:29:21 · 3080 阅读 · 0 评论 -
pyspark往elasticsearch 写入数据 零停机日更新
from elasticsearch import Elasticsearchfrom elasticsearch.helpers import reindexfrom datetime import datetimeimport jsonimport hashlib# ES配置格式# ES_CONF= {# "es.nodes" : "XXX.XX.XX.XX",# "e...原创 2019-06-22 09:25:10 · 1114 阅读 · 0 评论 -
python 正则
import regex as rere.sub("(?<![\{\((][^{}()()]*),(?![^{}()()]*[\}\))])", "_", ",{2, 1},")匹配除中英文圆括号和中括号中的逗号原创 2019-06-24 00:40:27 · 136 阅读 · 0 评论