自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 RDD -- RDD中获取文件名并加上一列文件名

需求:spark读取文件生成RDD,需要在RDD中加上一列文件名wholeTextFilessc.textFiles() 与 sc.wholeTextFiles() 的区别sc.textFiles(path) 能将path 里的所有文件内容读出,以文件中的每一行作为一条记录的方式wholeTextFiles(path)的源码介绍 * Read a directory of tex...

2019-06-28 15:58:38 982

原创 RDD -- flatmap

flatmapflatmap 简单用法 def main(args: Array[String]): Unit = { //设置log级别 Logger.getLogger("org").setLevel(Level.WARN) val conf = new SparkConf().setAppName("WordCountDemo").setMaster("loca...

2019-06-26 17:19:03 1846 1

原创 java/scala -- 日期格式字符串转时间戳

scala 日期格式字符串转时间戳 val fm = new SimpleDateFormat("yyyy-MM-dd'T'HH:mm:ss.SSS'Z'") val time = fm.parse(timestamp).getTime() //2019-04-09T03:01:22.413Z = 1554750082413 //2019-04-09T00:51:36.096Z...

2019-06-26 10:49:08 688

原创 tensorflow -- 安装环境

安装 python3-dev、 python3-pip、virtualenvsudo apt updatesudo apt install python3-dev python3-pipsudo pip3 install -U virtualenv # system-wide install创建虚拟环境virtualenv --system-site-packages -p pyt...

2019-06-19 16:49:28 89

原创 运维 -- 非root账户免密码sudo

linux下为用户配置免密码sudo权限1.切换到root账号su - root2.在配置文件/etc/sudoers中添加usrName ALL=(ALL) NOPASSWD: ALL

2019-06-19 14:24:09 1035

原创 elasticsearch -- win10 elasticsearch.bat闪退

win10 elasticsearch.bat闪退怎么搞的1、在elasticsearch/bin目录下,按shift + 鼠标右键 打开 powershell窗口2、输入bat文件名 如 elasticsearch.bat 回车运行,这时能看到错误提示,根据提示排查错误即可。[2019-06-19T11:04:17,247][INFO ][o.e.x.s.a.s.FileRolesSto...

2019-06-19 11:15:25 6184 2

原创 运维 -- Centos7静态ip

切换到 /etc/sysconfig/network-scripts 目录cd /etc/sysconfig/network-scripts 备份配置文件 ifcfg-ens32cp ifcfg-ens32 ifcfg-ens32.bak修改ifcfg-ens32内容第一台机器 TYPE=Ethernet PROXY_METHOD=none BROWSER_ONLY=no...

2019-06-19 10:26:48 139

转载 大数据 -- 数据倾斜

离线计算的数据倾斜问题数据倾斜就是指我们在计算数据的时候,数据的分散度不够,导致大量的数据集中到一台或者几台机器上,这些数据的计算速度远远低于平均计算速度,导致整个计算过程很慢。Hadoop中的数据倾斜主要表现在任务在Reducer阶段会长时间停留在大概99%处不能结束。这时如果仔细查看日志就会发现有一个或者多个reducer执行过程报oom错误或者container加载失败,这时基本可以判断...

2019-06-15 09:02:30 359

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除