自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(47)
  • 资源 (2)
  • 收藏
  • 关注

原创 XGBoost算法原理及基础知识

XGBoost基础知识介绍

2022-11-29 22:44:56 1861 4

原创 XGBoost模型调参、训练、保存、评估和预测

xgboost模型调参、训练、保存、评估、预测

2022-04-20 12:01:58 33053 35

原创 数据治理:概述

数据治理的范畴、目标以及具体事务

2024-02-25 00:15:41 1221

原创 Python字符串和日期时间格式转换

两个参数必要参数示例返回,Timestamp是原数据格式示例返回2024-02-05示例返回2024-02-05,pd.Series是具体的列,pd.Series是具体的列。

2024-02-05 11:37:18 682

原创 Python调用pyspark报错整理

Pycharm配置了SSH服务器和Anaconda的python解释器,如果没有配置可参考。

2024-02-04 12:23:30 1550

原创 azkaban编译时报错的解决方案

关于Azkaban和gradle下载,本文编译不限于单机solo模式。

2023-12-19 15:48:45 1185

原创 机器学习原理(1)集成学习基本方法

集成学习的基础知识

2023-07-25 18:25:13 638

原创 机器学习实践(2.2)LightGBM回归任务

lightgbm回归任务

2023-07-14 21:45:00 2142 2

原创 机器学习实践(2.1)LightGBM分类任务

LightGBM,集成学习的集大成者,本文为其分类使用的简要介绍

2023-07-12 18:45:00 1377 2

原创 机器学习实践(1.2)XGBoost回归任务

XGBoost属于Boosting集成学习模型,本文描述XGBoost的回归任务实践

2023-06-21 17:31:46 4492 11

原创 机器学习实践(1.1)XGBoost分类任务

XGBoost分类任务的简单实现

2023-06-16 18:00:31 1631 3

原创 SQL使用技巧(6)HIVE开窗函数

先想明白自己要实现什么样的功能,然后再去实践。没有目的的尝试段不可取,会难以理解各开窗函数的真正用法。

2023-05-31 18:42:59 1799

原创 hadoop shell操作HDFS文件

hadoop shell

2023-05-09 20:27:00 547 1

原创 SQL使用技巧(5)NULL值和空值的重要说明

null值不参与谓词运算等情况说明

2023-04-15 22:09:09 3271

原创 SQL使用技巧(4.2)Greenplum和PostgreSQL日期时间函数

Greenplum和PostgreSQL的日期时间函数

2023-04-09 00:39:27 2208

原创 Python图算法应用——节点关系查找工具

基于 networkx 的路径查找算法和中心性算法应用案例

2023-04-02 13:26:41 451

原创 SQL使用技巧(4.1)Hive日期时间函数

日期时间函数的使用,主要是Hive和greenplum大数据中的日期时间函数

2023-04-01 22:39:40 2343

原创 PostgreSQL在windows下如何启动

postgres在windows下启用,win环境下启用postres

2023-03-21 20:09:22 7160

原创 SQL使用技巧(3.2)递归层次查询Hive、Orcale和TDH

递归层次查询的orcale 和 hive实现,hive实现主要依赖于支持orcale语法

2023-03-20 14:24:07 4063

原创 SQL使用技巧(3.1)递归层次查询Postgresql

Postgresql的递归查询实现,包含存储过程和帆软Report查询两种方式

2023-03-19 20:22:58 2061

原创 SQL使用技巧(2)查询结果的分层汇总

查询结果的分层汇总cube() rollup() grouping set()

2022-10-17 22:27:21 2495 1

原创 SQL使用技巧(1)HQL中的合并与拆分

Hive中使用sql对数据做合并与拆分

2022-10-16 15:58:50 2606

原创 大数据单机学习环境搭建(4)设备重启后如何重启Hive和连接DBeaver

重启Hive和DBeaver连接

2022-10-15 18:11:58 1800

原创 大数据从业学习网址

大数据学习网站汇总

2022-08-22 10:28:19 230

原创 Graphviz绘制模型树2——XGBoost模型的可解释性

从二分类模型中的树重新理解XGBoost算法

2022-08-20 16:51:23 2933 7

原创 Graphviz绘制模型树1——软件配置与XGBoost树的绘制

通过graphviz绘制XGBoost二分类模型中树的绘制,to_graphviz()和plot_tree()

2022-08-20 16:47:13 2862

原创 FineReport导入Excel数据的完整示例

FineReport导入Excel数据到指定数据库二.配置模板web属性帆软“模板”——“模板web属性”,进行如下配置,主要目的是将“导入Excel”的按钮加入到工具栏中(双击即可),配置到web模板中。配置后点击“预览”按钮,选择“填报预览”预览结果如下图,主要是“导入Excel”和“提交”两个按钮。下面主要还是要配置接入数据库,否则做这些都没有意义三.定义数据连接PostgreSQL数据连接指南 下载

2022-08-19 21:23:17 15422

原创 分类任务评估2——推导ROC曲线、P-R曲线和K-S曲线

本文推导只借助2个最基础的工具包,不使用任何sklearn的模块

2022-06-30 15:11:24 1354

原创 分类任务评估1——推导sklearn分类任务评估指标

二分类问题中,准确率、精准率、召回率、F1值、ROC曲线、AUC值都是基于混淆矩阵展开计算的。

2022-06-19 14:59:28 3083

原创 Python-RFM28模型

换了行业模型不变,一个模型也可以打遍全场

2022-05-21 09:21:10 177

原创 大数据单机学习环境搭建(10)Pycharm中操作spark和hive

目录1.环境准备2.Pycharm连接Hive3.Pycharm执行py脚本3.1SparkSql操作数据的方式3.2一个完整的pyspark脚本1.环境准备需要提前准备Hadoop、Hive、Spark和Anaconda,以及Pycharm连接Linux的Anaconda环境,具体见本人如下相关文章。Hadoop本地单节点安装Linux使用yum安装MysqlHive单节点安装和启用Spark单节点安装与pyspark使用Linux单节点Anaconda安装和Pycharm连接另外,还可以

2022-05-20 16:07:16 2420

原创 大数据单机学习环境搭建(9)Spark单节点安装与pyspark使用

Spark Local模式环境部署和使用,包含python操作sparksql的使用案例

2022-05-20 11:35:01 1869

原创 大数据单机学习环境搭建(8)Linux单节点Anaconda安装和Pycharm连接

目录1.Anaconda安装1.1下载1.2安装1.3验证2.环境使用和第三方库(包)安装2.1新环境搭建2.2pyspark安装包pip install3.Pycharm连接3.1解释器添加3.2环境验证1.Anaconda安装1.1下载官方下载Linux版个人下载资源分享1.2安装1.自行上传到Linux系统/opt文件夹下2.执行安装命令按图执行# 安装anacondash Anaconda3-2021.05-Linux-x86_64.sh按图操作直至完成3.重启环境

2022-05-19 11:46:49 737

原创 FineReport帆软报表使用入门

本文基于帆软内部数据库演示报表的基本创建和使用,不做“工作目录”,“服务器”,“定义数据集”等其他数据源的配置介绍。 内容浅显,但能说明该工具最常用的功能。目录1.模板数据集1.1第一个数据集ds11.2第二个数据集ds22.筛选区编辑2.1参数添加2.2文本控件2.3多选框控件核心设置:数据字典构建3.报表区编辑3.1单元格元素小技巧:自增ID——select(#0)3.2单元格属性核心功能1:横纵扩展核心功能2:左父单元格***帆软了解数据决策系统 可以了解到帆软的全部功能。帆软学院 网址有视频

2022-05-17 18:03:40 27264

原创 大数据单机学习环境搭建(3)Hive安装和启用

目录1.Java和Hadoop安装2.MySQL安装3.Hive安装包和依赖包4.Hive安装、配置、启用4.1安装4.2配置4.3初始化数据库4.4查看mysql作为hive的元数据存储是否成功4.5使用hive和beeline1.Java和Hadoop安装见我的另一篇文章 Hadoop3本地单节点安装2.MySQL安装见我的另一篇文章 Linux使用yum安装Mysql3.Hive安装包和依赖包Hive官网下载,懒得下载可白嫖。见免费资源 Hive安装包和依赖包,提取码:o1ms4.Hiv

2022-05-13 17:30:34 2855

原创 大数据单机学习环境搭建(2)Linux使用yum安装Mysql

最简单的傻瓜式安装,如果之前安装但没成功,请按照步骤进行,不要跳,不要跳,不要跳1.MySQL卸载无论rpm还是tar.gz的安装包,先看看自己当前的mysql安装情况rpm -qa|grep mysql2.MySQL安装# 3.mysql安装# mysqk的安装与删除 https://blog.csdn.net/weixin_43102784/article/details/122696078# 3.1下载MySQL(5.7版本)的yum源wget 'https://dev.mysql

2022-05-13 15:22:53 603

原创 大数据单机学习环境搭建(1)Hadoop本地单节点安装

Hadoop3本地单节点安装教程

2022-05-13 10:47:52 935

原创 大数据单机学习环境搭建(6)Hive优化实现

目录一.SQL查询优化的核心思想1.1(内练固本)模型优化——预处理思想1.2(外练强身)技术优化1.2.1表设计优化——好的开端是成功的一半1.2.2查询任务优化——锦上添花二.Hive化实现方案2.1表的设计优化2.1.1表设计优化2.1.2表数据优化2.2模型的设计优化2.3JOB任务优化2.3.1DQL语句——语法编写常识2.3.2Job作业执行优化一.SQL查询优化的核心思想1.1(内练固本)模型优化——预处理思想注:所谓预处理就是提前准备好,形同饭店的备菜环节,应该先把要用到的菜洗、切等

2022-05-11 11:04:08 394

原创 大数据单机学习环境搭建(7)SQL的DQL查询优化

SQL查询优化的核心思想1.模型优化(内练固本)——预处理思想1.1复杂SQL拆分1.2数据合并、可行性和可用性评估2.技术优化(外练强身)2.1表设计优化——好的开端是成功的一半2.2查询任务优化——锦上添花1.模型优化(内练固本)——预处理思想注:所谓预处理就是提前准备好,形同饭店的备菜环节,应该先把要用到的菜洗、切等预处理好,等客人点菜了直接炒就好。预处理环节层层递进,适合复杂任务的拆分处理,简单任务“杀鸡焉用牛刀”。模型设计优化的思路需要在工作中养成,很重要但很难像技术优化那样清晰可见,可能

2022-05-11 11:01:49 271

原创 Python任务进度条的简单设置

tqdm是python进度条的使用包,以下简单示例,list=range(1000),循环进度为每间隔0.2秒执行一次。from tqdm import tqdmfrom time import sleepfor i in tqdm(range(1000)): sleep(0.2) # 休眠0.2s pass Jupyter Notebook的使用案例1lt = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']for var in tq

2022-05-05 16:00:02 1038

Azkaban依赖设置的简单使用

Azkaban依赖设置的简单使用,task任务包含sh、py和sql的执行

2022-04-22

azkaban-solo-server-3.81.0.tar

欢迎白嫖 azkaban-solo-server-3.81.0.tar 大数据azkaban单机部署文件,在 3.0 版本之后,提供了两种模式:独立的solo-server模式和分布式多执行器模式。本资源欢迎免费使用,即装即用无需编译。

2022-04-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除