自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

@羲凡—只为更好的活着

Get busy living, Or get busy dying

  • 博客(12)
  • 资源 (2)
  • 收藏
  • 关注

原创 Spark 机器学习——协同过滤ALS算法

@羲凡——只为了更好的活着Spark 机器学习——ALS算法1.什么是ALS算法?ALS是交替最小二乘法(Alternate Least Square),其中LS是大家最熟知的最小二乘法(Least Square),所以ALS和最小二乘法脱不了干系。百度上的解释,(在矩阵分解(matrix factorization)中使用的一种算法。有一个稀疏矩阵,假设这个矩阵是低阶的,可以分解成两个小矩...

2019-05-31 17:10:00 728

原创 Linux 删除hdfs上的指定文件夹

@羲凡——只为了更好的活着Linux 删除hdfs上的指定文件夹知识点1:用 cat … | while read line 循环文件的每一行知识点2:用 =~ 判断左边字符串是否包含右边字符串batchid=20190520202202hdfs dfs -ls /Data/beforeMerge/$batchid/JON* | awk '{print $8}' > file.tx...

2019-05-22 15:37:53 3030

原创 Spark RDD与DataFrame相互转换

@羲凡——只为了更好的活着Spark RDD与DataFrame相互转换Q:Spark中RDD转成DataFrame用什么算子A:.rddQ:Spark中DataFrame转成RDD用什么算子A:.toDF1.直接上代码import org.apache.spark.rdd.RDDimport org.apache.spark.sql.types.{IntegerType, Str...

2019-05-22 14:16:07 754

原创 Nginx 反向代理(upstream)

@羲凡——只为了更好的活着Nginx 反向代理(upstream)在配置高可用的环境中Nginx反向代理是最常用的一种方式。本人因为配置xxl-job调度中心的高可用,所以下面有xxl-job的痕迹。1.安装nginx知识赘述在你有外网的情况下,输入 sudo apt-get install nginx 即可安装,如果没有外网,可以参考这一篇文章https://www.cnblogs.co...

2019-05-17 16:18:27 1792

原创 Sqoop 增量导入hive

@羲凡——只为了更好的活着Sqoop 增量导入hive(incremental)问:业务中每天增量产生的数据(比如用户登录日志)如何更新到hive中呢答:使用参数 incrementalsqoop import \--connect jdbc:mysql://deptest23:3306/test_data?useUnicode=true&characterEncoding=ut...

2019-05-14 10:25:02 1311 1

原创 Xxl-job 编译和安装——xxl-job2.0.2

@羲凡——只为了更好的活着xxl-job 编译和安装——xxl-job2.0.2前一篇博客(https://blog.csdn.net/weixin_42003671/article/details/89487433)已经安装好elasticsearch6.5.4,现在安装一下kibana6.5.4。Kibana的安装特别简单。1.下载源码包并解压在下面的链接中下载自己的版本,本文使用最新...

2019-05-10 13:09:39 7151 3

原创 Sqoop Job 应用(二)

@羲凡——只为了更好的活着Sqoop Job 应用(二)问:在看了 Sqoop Job 应用(一) 后应该对sqoop job有一定的认识了,但是实际业务中我们肯定不会每次都手动执行sqoop脚本,更不会盯着去输入数据库密码,那怎么办呢?答:用调度器。之前的文章提到过用oozie调度sqoop,本文介绍用crontab0.重点说明a.省略输入密码要将之前的 –passowrd 换成 –p...

2019-05-09 09:33:46 531 1

原创 Linux 查看系统配置常用命令

@羲凡——只为了更好的活着Linux 查看系统配置常用命令1.查看cpu规格cat /proc/cpuinfo | grep name | cut -f2 -d: | uniq -c2.查看物理cpu个数cat /proc/cpuinfo | grep "physical id" | cut -f1 -d: | uniq -c3.查看cpu核数cat /proc/cpuinfo ...

2019-05-08 13:33:49 357 1

原创 Sqoop Job 应用(一)

@羲凡——只为了更好的活着Sqoop 使用——sqoop job 应用看本文前默认你已经用shell脚本执行sqoop,不会的可以借鉴我另一篇博客 https://blog.csdn.net/weixin_42003671/article/details/886658641.参数说明Job management arguments: --create <job-id> ...

2019-05-07 18:41:05 1151 1

原创 Linux 批量修改文件名(前缀或后缀)

@羲凡——只为了更好的活着Linux 批量修改文件名(前缀或后缀)有些文件的要求前缀或后缀要一样,或者批量的将文件重命名添加前缀: for i in `ls`; do mv -f $i `echo "text_"$i`; done替换后缀:rename 's/\.txt/\.csv/' *实例如下:depuser@TSDEP61:/csdn$ ls1.txt 2.txt 3.tx...

2019-05-07 14:27:18 23645

原创 Spark2.0 插入/更新mysql数据(scala)

@羲凡——只为了更好的活着Spark2.0 插入/更新mysql数据(scala)特别强调楼主使用spark2.3.2版本1.准备工作在pom.xml文件中要添加<dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId&gt...

2019-05-06 14:05:54 3857 4

原创 Hadoop-动态刷新hdfs/yarn配置

@羲凡——只为了更好的活着Hadoop-动态刷新hdfs/yarn配置在很多时候,修改了hadoop的配置后,希望立即生效,但是线上还有任务在执行,不能重启,可以执行以下命令让修改后的hdfs/yarn配置生效1、动态刷新hdfs配置如果是HA集群则在两个namenode节点上执行hdfs dfsadmin -fs hdfs://nn1:9000 -refreshSuperUserGro...

2019-05-05 14:48:24 4853 7

Ubuntu-mysql5.7.25离线完整安装包(含三个依赖包)

在Ubuntu上离线安装mysql5.7.25。完整安装包(含三个依赖包)

2019-03-15

APT方式安装mysql的包

下载此文件可以直接通过sudo dpkg -i mysql-apt-config_0.8.9-1_all.deb 、sudo apt-get update 、sudo apt-get install mysql-server 方式安装 mysql5.7版本

2019-01-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除