自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Eric

既然选择了远方,就别怕风雨兼程!

  • 博客(13)
  • 收藏
  • 关注

原创 scrapy爬取数据写入mysql

爬虫

2022-07-08 15:42:27 893 2

原创 centos7离线安装airflow1.10.10(真正离线)

一:环境及包准备:1、外网服务器一台,内网服务器一台2、python3.7+airflow1.10.10+redis4.0.6+mysql5.73、从https://github.com/apache/airflow找到对应版本的requirements-python3.7.txt列表单基础软件安装python、mysql及redis 略过,安装简单,再次略过,注意一点mysql集成airflow 需要在mysql配置文件下添加:explicit_defaults_for_timesta

2020-12-09 16:51:54 1431

原创 spark任务提交命令

记录一把spark on yarn模式任务提交,方便以后使用,资源大佬们可根据实际需求自行调整#!/usr/bin/env bash. /etc/profile. ~/.bash_profilespark-submit \--master yarn-cluster \--class XXX.XXX.XXX\--jars /data/batchJob/lib/hbase-server-1.0.0-cdh5.4.4.jar,/data/batchJob/lib/htrace-core-3.0.4

2020-06-30 10:23:23 576

原创 Apache druid 自定义组件开发

最近因项目需要,需要开发Apache druid插件解析kafka推过来的流量,格式为protobuf,字段存储为二进制类型(注意,普通数据类型 druid已支持),废话不多说,上思路。第一步:实现ByteBufferInputRowParser类 XXXParser,业务逻辑的实现在parsePatch()方法第二步 :创建一个实现DruidModule 类 XXXThriftExtensionsModule, 在getJacksonModules里注册实现的Modle和Parser...

2020-06-28 14:38:46 501 1

原创 sparkstreaming 实时读取kafka写入hive优化(高流量)

背景:kafka流量在800M/s,前任留下的程序大量数据丢失,且逻辑生成复杂,查询hive直接奔溃,优化从两方面,程序优化及小文件合并(生成结果产生大量小文件)程序直接上代码,啥也不说了程序 def main(args: Array[String]): Unit = { val sdf = new SimpleDateFormat("yyyyMMddHHmm") ...

2019-07-01 16:21:54 6474 1

原创 机器学习基础理论

对聚类算法进行简单的扫盲,方便以后的学习。将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类,可分为五大类,如下图所示:

2016-11-21 16:55:06 403

原创 sqoop1.4.6+hadoop2.6.2安装

1  下载sqoop安装包 sqoop-1.4.6.bin__hadoop-2.0.4-alpha(注意这里有个版本说明sqoop1.4.x 为sqoop1,sqoop1.9.XX为sqoop2)并解压 2  配置环境变量 并 编辑 sqoop-env.sh配置文件 (conf目录下)添加    3 编辑configure-sqoop文件 (bin目录下) 注释下面的内容4  这一步是

2016-04-22 14:18:48 443

原创 大数据工程师学习大纲汇总

最近有不少同事朋友问我,学习大数据应该学习哪些技能,我查阅相关资料,做了个大体汇总,方便感兴趣的读者阅读。 大数据工程师技能图谱大数据通用处理平台SparkFlinkHadoop分布式存储HDFS资源调度YarnMesos机器学习工具MahoutSpark MlibTensorFlow (Google 系)Amazon

2016-04-17 08:47:26 1348

原创 用Ambari安装hdp2.4错误汇总

主机验证需要注意的问题问题一:   主机命名格式    主机名的格式必须是xxx.xxx.xxx 或者xxx.xxx, 否则在主机验证那一步就报错 not reachable。问题二: openssl版本低,报如下错误 需下载最新的版本,下载地址                   http://pkgs.org/centos-6/centos-x86_64/openssl-1.0.1

2016-04-10 10:27:38 1882

原创 hadoop命令汇总

1 安全模式命令hadoop dfsadmin -safemode  value.。 value的值可以为:enter 进入安全模式leave 强制离开安全模式get  返回安全模式是否开启信息wait 等待,一直到安全模式结束2 hdfs命令hadoop fs -mkdir 创建文件夹  hadoop fs -ls 查看文件列表hadoop fs  -put

2016-03-08 21:53:40 315

原创 hdfs简介(一)

hdfs特点1  流式的访问数据hdfs是一个部署在廉价硬件上的分布式文件系统,以流的方式访问文件系统中的数据2  硬件故障  hdfs系统由数百货数千个存储这文件数据片段的服务器组成,每一个部分都有可能出现故障,这就意味着HDFS里的一些组成部分总是失效的,因此故障的检测和自动快速恢复是HDFS一个核心的结果目标3 简单一致性模型大部分的HDFS程序对文件的操作需要一次写

2016-03-07 22:02:15 373

原创 抽样估计

抽样估计(概率)概念通过样本指标推断总体指标抽样估计的几个问题  科学性如何抽样抽样的误差抽样估计方法点估计  (样本平局=总体平局)区间估计 (发生在指定区间的概率大)

2016-03-07 12:24:41 1091

原创 数据分析基础学习大纲汇总

通常数据分析方法包括 一  统计分析方法描述性统计分析 (平均值,标准差,中位数  百分数)回归分析因子分析方差分析 二  数据挖掘方法聚类分类关联规则多元回归分解数据分析方法步骤明确目标,数据收集,数据处理,数据分析,抒抉涨势,包括编写用到的数学内容概率论,数理统计,数据挖掘分析工具SQL,Execl

2016-03-07 10:13:26 818

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除