- 博客(12)
- 资源 (3)
- 问答 (1)
- 收藏
- 关注
原创 Spark on yarn 内存计算
1.yarn关键参数配置1.yarn中单个nodemanager控制container的个数(1)yarn.nodemanager.resource.memory-mb作用:该节点分配nodemanager的资源该节点最大内存划分出来的给nodemanager使用的内存,若物理内存128G,80%可使用,则内存则配置128*0.8,默认是8G,若可用小于8G,则需要修改。(2)yarn.nodemanager.vmem-pmem-ratio作用:虚拟内存的比例,默认是2.1,即每使用1G物理内
2020-08-27 14:13:30 916 2
原创 spark XGBoost算法demo
1.运行环境配置 该算法需要运行Linux环境下,运行的版本为:spark2.4.0,scala 2.112.maven配置 <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <proj...
2019-09-03 15:19:42 996 2
原创 阿里云RDS导出csv文件
1.说明 通常mysql数据库导出csv文件用outfile命令指定导出的csv文件的格式(outfile导出csv文件见如下命令),但是阿里云的RDS数据库不支持该命令。select * from test_infointo outfile '/tmp/test.csv'fields terminated by ',' ------字段间以,号分隔o...
2019-08-08 18:12:46 1678
原创 MYSQL数据以csv文件到入neo4j:反欺诈简单案例
该种方式导入只适合小数据量的方式,并且节点的id创建困难的情况下。在实测的情况下,200万条数据,每条数据创建9个节点,8条边的情况下需要7~8分钟。1.测试数据准备 数据规则,一个订单有多个角色,一个客户可以属于多个订单,一个客户可谓不同角色,具体表结构如下:字段 类型 注释 order_id varchar(50) 订单id or...
2019-08-05 11:13:17 988
原创 neo4j安装及内存分配
Neo4j是一个高性能的,NOSQL图形数据库,它将结构化数据存储在网络上而不是表中,国内下载地址:ftp://neo4j.55555.io/neo4j/3.5.7/1.安装jdkjdk安装在root用户下(1)检查自带jdk并卸载,检查命令如下:rpm -qa|grep gcj rpm -qa|grep jdk (2)卸载jdk命令如下rpm -e ...
2019-07-16 11:22:36 6892
原创 linux用户名与用户组添加删除
需要在root权限下操作useradd testuser 创建用户testuserpasswd testuser 给已创建的用户testuser设置密码usermod --help 修改用户这个命令的相关参数userdel testuser 删除用户testuserrm -rf testuser 删除用户testuser所在目录groupadd testgroup 组的...
2019-07-15 10:29:51 217
原创 Spark rdd转Dataframe的三种方法
Spark rdd转Dataframe的三种方法数据准备RDD转Dataframe的三种方式通过RDD推断创建dataframe通过StructType创建dataframe通过定义schema类创建dataframe数据准备练习数据为电影推荐系统的数据,该部分数据收集了不同时间段的数据,我们可以根据电影分析业务需求下载不同规模大小的数据源文件。下载地址为:https://grouplens....
2019-06-11 17:27:59 7362
原创 spark ML特征工程离散余弦变换(dct)
简介离散余弦变换(Discrete Cosine Transform)是将时域的N维实数序列转换成频域的N维实数序列的过程(有点类似离散傅里叶变换)。(ML中的)DCT类提供了离散余弦变换DCT-II的功能,将离散余弦变换后结果乘以12√12得到一个与时域矩阵长度一致的矩阵。输入序列与输出之间是一一对应的。实战1.spark工程的pom文件引用 <propertie...
2019-04-17 18:17:59 757
原创 spark ml特征工程之主成分分析(pca)
简介主成分分析(PCA)是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。spark ML特体相应的AP进行处理。实战1.spark工程的pom文件引用 <properties> <project.build.sourceEncoding>UTF-8</project.bui...
2019-04-12 15:30:19 1192
flink消费kafka部分分区数据积压
2022-02-09
TA创建的收藏夹 TA关注的收藏夹
TA关注的人