自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (3)
  • 问答 (1)
  • 收藏
  • 关注

原创 hive分组问题

hive开窗分组问题

2022-06-16 18:49:59 320 1

原创 hive连续问题

hive连续问题

2022-06-16 17:51:48 634

原创 apache log4j漏洞升级

apache log4j漏洞升级

2021-12-20 16:54:09 700

原创 Spark on yarn 内存计算

1.yarn关键参数配置1.yarn中单个nodemanager控制container的个数(1)yarn.nodemanager.resource.memory-mb作用:该节点分配nodemanager的资源该节点最大内存划分出来的给nodemanager使用的内存,若物理内存128G,80%可使用,则内存则配置128*0.8,默认是8G,若可用小于8G,则需要修改。(2)yarn.nodemanager.vmem-pmem-ratio作用:虚拟内存的比例,默认是2.1,即每使用1G物理内

2020-08-27 14:13:30 916 2

原创 spark XGBoost算法demo

1.运行环境配置 该算法需要运行Linux环境下,运行的版本为:spark2.4.0,scala 2.112.maven配置 <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <proj...

2019-09-03 15:19:42 996 2

原创 阿里云RDS导出csv文件

1.说明 通常mysql数据库导出csv文件用outfile命令指定导出的csv文件的格式(outfile导出csv文件见如下命令),但是阿里云的RDS数据库不支持该命令。select * from test_infointo outfile '/tmp/test.csv'fields terminated by ','    ------字段间以,号分隔o...

2019-08-08 18:12:46 1678

原创 MYSQL数据以csv文件到入neo4j:反欺诈简单案例

该种方式导入只适合小数据量的方式,并且节点的id创建困难的情况下。在实测的情况下,200万条数据,每条数据创建9个节点,8条边的情况下需要7~8分钟。1.测试数据准备 数据规则,一个订单有多个角色,一个客户可以属于多个订单,一个客户可谓不同角色,具体表结构如下:字段 类型 注释 order_id varchar(50) 订单id or...

2019-08-05 11:13:17 988

原创 neo4j安装及内存分配

Neo4j是一个高性能的,NOSQL图形数据库,它将结构化数据存储在网络上而不是表中,国内下载地址:ftp://neo4j.55555.io/neo4j/3.5.7/1.安装jdkjdk安装在root用户下(1)检查自带jdk并卸载,检查命令如下:rpm -qa|grep gcj rpm -qa|grep jdk (2)卸载jdk命令如下rpm -e ...

2019-07-16 11:22:36 6892

原创 linux用户名与用户组添加删除

需要在root权限下操作useradd testuser 创建用户testuserpasswd testuser 给已创建的用户testuser设置密码usermod --help 修改用户这个命令的相关参数userdel testuser 删除用户testuserrm -rf testuser 删除用户testuser所在目录groupadd testgroup 组的...

2019-07-15 10:29:51 217

原创 Spark rdd转Dataframe的三种方法

Spark rdd转Dataframe的三种方法数据准备RDD转Dataframe的三种方式通过RDD推断创建dataframe通过StructType创建dataframe通过定义schema类创建dataframe数据准备练习数据为电影推荐系统的数据,该部分数据收集了不同时间段的数据,我们可以根据电影分析业务需求下载不同规模大小的数据源文件。下载地址为:https://grouplens....

2019-06-11 17:27:59 7362

原创 spark ML特征工程离散余弦变换(dct)

简介离散余弦变换(Discrete Cosine Transform)是将时域的N维实数序列转换成频域的N维实数序列的过程(有点类似离散傅里叶变换)。(ML中的)DCT类提供了离散余弦变换DCT-II的功能,将离散余弦变换后结果乘以12√12得到一个与时域矩阵长度一致的矩阵。输入序列与输出之间是一一对应的。实战1.spark工程的pom文件引用 <propertie...

2019-04-17 18:17:59 757

原创 spark ml特征工程之主成分分析(pca)

简介主成分分析(PCA)是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。spark ML特体相应的AP进行处理。实战1.spark工程的pom文件引用 <properties> <project.build.sourceEncoding>UTF-8</project.bui...

2019-04-12 15:30:19 1192

apache_log4j.zip

org.apache.logging.log4j.2.17.0 打包

2021-12-20

logging-log4j2-rel-2.17.0.zip

apache-log4j-2.17.0源码

2021-12-20

公开电影点评系统练习数据

公开数据,可从 https://grouplens.org/datasets/movielens/ 下载

2019-06-11

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除