- 博客(22)
- 资源 (15)
- 收藏
- 关注
原创 Spark 开发优化
文件存储分区规则: /houseId=?/dayId=?/hourId=?/minutet=5(5分钟产生一个文件)存在问题:1.收敛参数coalesce失效,小文件特别多不同houseId(区域)的数据差异很大(如北上广与新疆西藏订单数据),导致清洗产生大量小文件100G原始文件,清洗后产生10万多个文件2.数据入库延迟大因为kafka 不同分区流速差异大,HDFS数据有延迟几个...
2018-07-30 03:57:36 275
原创 ES 问题总结
1.spark-es 无法处理数组类型字段18/05/05 15:32:27 WARN sql.ScalaRowValueReader: Field 'hobby' is backed by an array but the associated Spark Schema does not reflect this; (use es.read.field.as.ar...
2018-07-30 03:56:52 654
原创 ES 数据迁移至HDFS
es 备份存储方式支持以下几种方式:fs 文件挂载url 网络协议存储 (http,https,ftp)s3 亚马逊hdfsazure 微软gcs 谷歌(1) repository(仓库)es集群中,想要备份数据,必须创建仓库,用来存储快照,一个集群可以创建多个仓库(2) snapshot (快照)创建仓库后,我们可以创建快照,创建快照时必须指定一个仓库,需要依附某个仓...
2018-07-30 03:56:23 3140 1
原创 ES 相关基本概念
1.index --同RDBMS 的schema 数据库类型2.Type 类型 --同数据表3.Document --同RDBMS 一组关系:一条记录4.Field :字段对应列ES 主从架构,去中心花(任意节点都可以同ES集群通信,并且是等价,P2P网络架构,即使master,又是data节点主节点(master node),数据节点(data node)主节点:...
2018-07-30 03:55:40 1024
原创 ES安装文档
一 安装ES1.下载ES,header(ES集群图形管理),Node(npm安装header)2.解压ESunzip elasticsearch-5.6.4.zip3.配置ES 的.yml文件,对应用户下的.profile文件进行全局执行命令(1) vim elasticsearch.ymlcluster.name: my-es## -------------------...
2018-07-30 03:54:51 414
原创 yarn cluster 与yarn client区别
yarn-client:1.提交方式export HADOOP_CONF_DIR=XXX./bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master yarn-client \ --executor-memory 2g --jars /usr/cdh/hive/lib/mysql-con...
2018-07-30 03:53:54 871 1
原创 kafka 总结
kafka-零字节拷贝1.数据从内核复制到套接字缓冲区2.从套接字缓冲区复制到NIC(网络适配器)缓冲区--网络传输传统: 1.数据从磁盘读取到内核空间的pagecache中2.应用程序从内核空间读取数据到用户空间缓冲区3.应用程序将数据从内核空间复制到套接字缓冲区4.从套接字缓冲区复制到NIC(网络适配器)缓冲区Spark Streaming + Kafka 整合Rece...
2018-07-30 03:51:47 873
原创 ES 安装文档
一 安装ES1.下载ES,header(ES集群图形管理),Node(npm安装header)2.解压ESunzip elasticsearch-5.6.4.zip3.配置ES 的.yml文件,对应用户下的.profile文件进行全局执行命令(1) vim elasticsearch.ymlcluster.name: my-es## -------------------...
2018-07-30 03:50:54 286
原创 pyspark RDD 入门
#import pyhdfs#顶级项目目录#from spark.demo import demo2#! /usr/bin/python# -*- coding:utf-8 -*-import sysfrom pyspark.sql import SparkSessionimport operator as opclass PropertiesUtil: ...
2018-07-30 03:35:41 488
原创 Python 常见数据结构
一 字符串:通过下标获取元素 声明变量 str=''str(x)(1) 字符串元素字符索引:[indexId] >>> var1 = "Hello world">>> var2 = "Python Rnnob">>> print "var1[0]",var1[0]var1[0] H字符串截取成子
2018-07-30 03:21:45 402
原创 pycharam + spark整合
1.下载pycharm 2.安装python(linux,mac一般都有python2.7,3.5)略3.安装spark 环境,不是重点略.4.安装pipcurl -O https://bootstrap.pypa.io/get-pip.py 使用Python安装pip(升级pip install --upgrade pip [如需要 sudo]python get-pip....
2018-07-27 10:57:39 284
原创 linux系统资源管理
一 .查看CPU核数1查看CPU 物理核数cat /proc/cpuinfo | grep "physical id" |sort -u | wc -l2查看CPU 逻辑核数hadoop@hadoop:~$ cat /proc/cpuinfo | grep "core id" |sort -u | wc -l二 .top top -p PID 查看该进程的信息top...
2018-07-27 10:18:15 305
原创 git 分支管理,添加tag
本地---->stage:暂存git commmit "提交注释"新仓库创建dev分支git checkout -b devstage:暂存----->sourcegit push origin source 源端地址更新内容 git pull source 源端地址删除远程分支: git push origin :远程分支名git pus...
2018-07-24 13:53:12 430
原创 git 项目管理
一 .拉取远程工程到本地1. 先克隆git clone ssh/https gitlab地址二. 查看当前分支,并进行切换到要提交代码文件的分支1.git branch -a :查看源端所有分支2.git checkout Recsys_second :切换到Recsys_second分支3.进入到文件(或者自己创建文件作为代码提交目录,便于管理),复制要提交代...
2018-07-24 13:51:22 187
原创 kafka 监控工具
一 kafka某个offset的监控工具(1).开源社区有相应的组件进行监控a.下载 kafka offset监控 (地址链接)https://pan.baidu.com/s/1sj0YERV (如果失效,可以上社区搜索)b. 解压后发现KafkaOffsetMonitor-assembly-0.2.1.jar,即为监控组件c.编写脚本(可定时启动)KafkaOffsetMonitor...
2018-07-13 10:58:37 1746
原创 定时 关闭Spark-Submit ,Kafka
一.spark-submitvim stopSparksubmit.sh#! /bin/basha=0while true do#SparkSubmitid=`/usr/jdk8/bin/jps | /bin/grep -v grep | /bin/grep SparkSubmit | /usr/bin/cut -d " " -f 1`SparkSubmitid=`/usr/jdk8/bi...
2018-07-12 16:21:34 1259
原创 Spark调度-livy 安装使用
1.下载压缩包,解压https://www.apache.org/dyn/closer.lua/incubator/livy/0.5.0-incubating/livy-0.5.0-incubating-bin.zipunzip livy-0.5.0-incubating-bin.zip 2.配置环境变量vim .profile(ubuntu,redhat/centos .bash_p...
2018-07-12 14:46:32 1653
原创 spark-submit相关
1.shell 脚本exec $SPARK_HOME/bin/spark-submit \--class com.bigeyedata.mort.Main \--driver-class-path $MORT_HOME/libs/*.jar \--master yarn-client \--deploy-mode cluster \--jars /appcom/mort/thirdparty_ja...
2018-07-12 14:45:31 293
原创 Mongo 命令总结
一.条件查询 降序计数:-1 db.ngx.app.api.find().sort({createdTime:-1}).count() 模糊查询: like %M1E% db.ngx.app.user.find({useragentOriginal:{$regex:/M1E/}}) 范围查询: >= and <= db.ngx.app.user.f...
2018-07-05 11:13:32 392
原创 Mongo 数据库授权认证登陆
一 授权: 无认证登陆创建认证用户1.use admin2.创建访问某个数据库的用户admin 数据库use admindb.createUser({user:"mongo",pwd:"mongo",roles:[{role:"root",db:"admin"}]})db.createUser({user:"mongo",pwd:"mongo",roles:[{role:"rea
2018-07-05 11:05:10 2213
原创 crontab 无法执行脚本
最近在服务端夜间运行脚本,发现未执行,但是本地却能执行,百思不得其解.后来查证:crontab 内无环境变量,所以任何shell命令需要使用全路径才能执行添加完毕即可执行.援引链接http://bbs.chinaunix.net/thread-1926428-1-1.htmlcrontab -e23 11 4 7 * sh killKafkaConsoleConsume...
2018-07-04 13:46:40 1131
原创 Kafka 命令总结
1.查看topic是否正常: topic副本,leader可在集群任何节点执行opt/kafka_2.11-0.10.0.0/bin/kafka-topics.sh --describe --zookeeper 10.25.133.192:12181,10.26.51.89:12181/kafka10 --topic nongfunginxlog2.验证所指定的一个或多个Topic下每...
2018-07-02 17:41:49 328
Flume 根据字段进行路由插入 ES
2019-04-26
验证码工程源码
2016-11-02
JDBC连接Oralce数据库驱动
2014-03-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人