咖啡豆丁
码龄9年
关注
提问 私信
  • 博客:37,816
    37,816
    总访问量
  • 53
    原创
  • 947,038
    排名
  • 2
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2016-02-24
博客简介:

my blogs

博客描述:
Never too old to learn!!
查看详细资料
个人成就
  • 获得11次点赞
  • 内容获得4次评论
  • 获得38次收藏
创作历程
  • 4篇
    2022年
  • 22篇
    2021年
  • 27篇
    2020年
成就勋章
TA的专栏
  • 算法笔记
    2篇
  • 大数据技术笔记
    25篇
  • 编码技巧
    17篇
  • 统计学习
    11篇
  • 业务
    3篇
  • office技巧
    1篇
兴趣领域 设置
  • 大数据
    hivespark
  • 人工智能
    机器学习scikit-learn
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

python单例模式

def __new__(cls, *args, **kwargs): '''单例模式''' if not hasattr(cls, 'instance'): cls.instance = super(CreateFuZhuJianChaRes, cls).__new__(cls) return cls.instance
原创
发布博客 2022.03.28 ·
415 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

seaborn小技巧

1.添加中文支持import seaborn as snssns.set_style({'font.sans-serif':['simhei', 'Arial']})2.设置字体大小sns.set(font_scale=1)3.正常显示横纵坐标的负值plt.rcParams['axes.unicode_minus']=False4.科学计数法def formatnum(x, pos): return '$%.1f$x$10^{4}$' % (x/10000)from ma...
原创
发布博客 2022.03.11 ·
463 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

pandas常用操作

1.转换数据类型df.apply(pd.to_numeric,errors='ignore')2.宽数据转换为长数据pd.melt(df,id_vars=['col3'])3.重命名列名称df.rename(columns={'col1':'列1'},inplace=True)4.crosstab 混淆矩阵pd.crosstab(df['truth'],df['predict'])5.join操作merge_df=pd.merge(df1,df2,on='col1',how='left')
原创
发布博客 2022.03.11 ·
342 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

shap值的使用

import shapshap.initjs()explainer = shap.TreeExplainer(model)shap_values = explainer.shap_values(X_train)shap.summary_plot(shap_values, X_train,max_display=80)
原创
发布博客 2022.03.11 ·
600 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

python时间操作

print('时间戳转日期标准格式:')from datetime import datetimet=1640329180format_time = str(datetime.fromtimestamp(t))print(format_time)print('日期标准格式转时间戳:')cday = datetime.strptime('2015-6-1 18:19:59', '%Y-%m-%d %H:%M:%S')timestamp = cday.timestamp()print(tim.
原创
发布博客 2021.12.24 ·
564 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

Misusing resampling, leading to a data leakage

In the resampling setting, there is a common pitfall that corresponds to resample the entire dataset before splitting it into a train and a test partitions. Note that it would be equivalent to resample the train and test partitions as well.
原创
发布博客 2021.10.20 ·
100 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

贝叶斯优化包安装

pip install scikit-optimizepip install hyperoptpip install -i https://pypi.douban.com/simple bayesian-optimization
原创
发布博客 2021.10.15 ·
407 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

pyspark 第三方依赖包

spark-submit \--master yarn \--deploy-mode cluster \--driver-memory 1g \--num-executors 1 \--queue default \--conf spark.yarn.dist.archives=hdfs:///user/xxx/conda_env.zip#python36 \--conf spark.pyspark.driver.python=./python36/conda_env/bin/python \
原创
发布博客 2021.09.13 ·
776 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

pip切换安装来源

pip install xgboost==0.71 -i https://pypi.tuna.tsinghua.edu.cn/simple
原创
发布博客 2021.09.06 ·
113 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

shell中执行mysql语句

mysql -h IP --port=端口 --database=数据库 -u用户 -p密码 -e "select * from hello; " > hello.txt
原创
发布博客 2021.08.26 ·
406 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

java 执行scala/java jar包

java 执行命令:java -Djava.ext.dirs=<多个jar包的目录> com.hello 参数1 参数2jar包中需要包含 scala-library-2.11.8.jar等
原创
发布博客 2021.08.24 ·
331 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

行政区划简称(包括别称)

"京"->"北京市""津"->"天津市""沪"->"上海市""渝"->"重庆市""蒙"->"内蒙古自治区""新"->"新疆维吾尔自治区""藏"->"西藏自治区""宁"->"宁夏回族自治区""桂"->"广西壮族自治区""港"->"香港特别行政区""澳"->"澳门特别行政区""黑"->"黑龙江省""吉"->"吉林省""辽"->"辽宁省""晋"->"山西省""冀"->"河北省""青"-&
原创
发布博客 2021.08.19 ·
1380 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

yarn日志查看

yarn logs -applicationId application_id > log 2>&1
原创
发布博客 2021.08.18 ·
233 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

java 二维数组排序

Arrays.sort(envelopes, new Comparator<int[]>() { public int compare(int[] o1, int[] o2) { if(o1[0] == o2[0]){ // 若俩数组的第一个元素相等,则比较它们的第二个元素 return o1[1] - o2[1]; }else { // 若俩数组的第一个元素不相等,则按从小到大的顺序...
原创
发布博客 2021.08.17 ·
151 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

linux 常见几个日期操作

#获取几天前的日期date -d "20210812 -3 days" +"%Y%m%d"#获取几个月前对应的日期date -d "20210812 -3 month" +"%Y%m%d"#获取几个月前对应的月份first=`date -d "20210803" +"%Y%m"`month=`date -d "${first}01 -3 month" +"%Y%m"`
原创
发布博客 2021.08.12 ·
152 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

linux当前路径

script_dir=$(cd $(dirname ${BASH_SOURCE[0]}); pwd)
原创
发布博客 2021.08.10 ·
123 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

python spark 提交模板

spark-submit \--master yarn \--deploy-mode mode\--driver-memory 2g \--num-executors 30 \--executor-memory 6G \--executor-cores 4 \--conf spark.shuffle.service.enabled=true \--conf spark.dynamicAllocation.enabled=true \--conf spark.dynamicAllocatio
原创
发布博客 2021.08.10 ·
138 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

flink框架入门介绍和示例程序

发布资源 2021.06.11 ·
rar

pyspark启动

pyspark --master yarn \--deploy-mode client \--conf spark.default.parallelism=240 \--queue queue\--driver-memory 2G \--executor-memory 6G \--executor-cores 4 \--num-executors 30
原创
发布博客 2021.05.26 ·
876 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

FasterRCNN算法.pptx

发布资源 2021.03.15 ·
pptx
加载更多