2018年07月_青山流水在深谷

11月 10月 08月 07月 05月 04月 03月 02月 01月

原创 Spark 开发优化

文件存储分区规则: /houseId=?/dayId=?/hourId=?/minutet=5(5分钟产生一个文件)存在问题:1.收敛参数coalesce失效,小文件特别多不同houseId(区域)的数据差异很大(如北上广与新疆西藏订单数据),导致清洗产生大量小文件100G原始文件,清洗后产生10万多个文件2.数据入库延迟大因为kafka 不同分区流速差异大,HDFS数据有延迟几个...

2018-07-30 03:57:36 275

原创 ES 问题总结

1.spark-es 无法处理数组类型字段18/05/05 15:32:27 WARN sql.ScalaRowValueReader: Field 'hobby' is backed by an array but the associated Spark Schema does not reflect this; (use es.read.field.as.ar...

2018-07-30 03:56:52 654

原创 ES 数据迁移至HDFS

es 备份存储方式支持以下几种方式:fs 文件挂载url 网络协议存储 (http,https,ftp)s3 亚马逊hdfsazure 微软gcs 谷歌(1) repository(仓库)es集群中,想要备份数据,必须创建仓库,用来存储快照,一个集群可以创建多个仓库(2) snapshot (快照)创建仓库后,我们可以创建快照,创建快照时必须指定一个仓库,需要依附某个仓...

2018-07-30 03:56:23 3140 1

原创 ES 相关基本概念

1.index --同RDBMS 的schema 数据库类型2.Type 类型 --同数据表3.Document --同RDBMS 一组关系:一条记录4.Field :字段对应列ES 主从架构,去中心花(任意节点都可以同ES集群通信,并且是等价,P2P网络架构,即使master,又是data节点主节点(master node),数据节点(data node)主节点:...

2018-07-30 03:55:40 1024

原创 ES安装文档

一安装ES1.下载ES,header(ES集群图形管理),Node(npm安装header)2.解压ESunzip elasticsearch-5.6.4.zip3.配置ES 的.yml文件,对应用户下的.profile文件进行全局执行命令(1) vim elasticsearch.ymlcluster.name: my-es## -------------------...

2018-07-30 03:54:51 414

原创 yarn cluster 与yarn client区别

yarn-client:1.提交方式export HADOOP_CONF_DIR=XXX./bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master yarn-client \ --executor-memory 2g --jars /usr/cdh/hive/lib/mysql-con...

2018-07-30 03:53:54 871 1

原创 kafka 总结

kafka-零字节拷贝1.数据从内核复制到套接字缓冲区2.从套接字缓冲区复制到NIC(网络适配器)缓冲区--网络传输传统: 1.数据从磁盘读取到内核空间的pagecache中2.应用程序从内核空间读取数据到用户空间缓冲区3.应用程序将数据从内核空间复制到套接字缓冲区4.从套接字缓冲区复制到NIC(网络适配器)缓冲区Spark Streaming + Kafka 整合Rece...

2018-07-30 03:51:47 873

原创 pyspark RDD 入门

#import pyhdfs#顶级项目目录#from spark.demo import demo2#! /usr/bin/python# -*- coding:utf-8 -*-import sysfrom pyspark.sql import SparkSessionimport operator as opclass PropertiesUtil: ...

2018-07-30 03:35:41 488

原创 Python 常见数据结构

一字符串:通过下标获取元素声明变量 str=''str(x)(1) 字符串元素字符索引:[indexId] >>> var1 = "Hello world">>> var2 = "Python Rnnob">>> print "var1[0]",var1[0]var1[0] H字符串截取成子

2018-07-30 03:21:45 402

原创 pycharam + spark整合

1.下载pycharm 2.安装python(linux,mac一般都有python2.7,3.5)略3.安装spark 环境,不是重点略.4.安装pipcurl -O https://bootstrap.pypa.io/get-pip.py 使用Python安装pip(升级pip install --upgrade pip [如需要 sudo]python get-pip....

2018-07-27 10:57:39 284

原创 linux系统资源管理

2018-07-27 10:18:15 305

原创 git 分支管理,添加tag

本地---->stage:暂存git commmit "提交注释"新仓库创建dev分支git checkout -b devstage:暂存----->sourcegit push origin source 源端地址更新内容 git pull source 源端地址删除远程分支: git push origin :远程分支名git pus...

2018-07-24 13:53:12 430

原创 git 项目管理

一 .拉取远程工程到本地1. 先克隆git clone ssh/https gitlab地址二. 查看当前分支,并进行切换到要提交代码文件的分支1.git branch -a :查看源端所有分支2.git checkout Recsys_second :切换到Recsys_second分支3.进入到文件(或者自己创建文件作为代码提交目录,便于管理),复制要提交代...

2018-07-24 13:51:22 187

原创 kafka 监控工具

一 kafka某个offset的监控工具(1).开源社区有相应的组件进行监控a.下载 kafka offset监控 (地址链接)https://pan.baidu.com/s/1sj0YERV (如果失效,可以上社区搜索)b. 解压后发现KafkaOffsetMonitor-assembly-0.2.1.jar,即为监控组件c.编写脚本(可定时启动)KafkaOffsetMonitor...

2018-07-13 10:58:37 1746

原创定时关闭Spark-Submit ,Kafka

一.spark-submitvim stopSparksubmit.sh#! /bin/basha=0while true do#SparkSubmitid=`/usr/jdk8/bin/jps | /bin/grep -v grep | /bin/grep SparkSubmit | /usr/bin/cut -d " " -f 1`SparkSubmitid=`/usr/jdk8/bi...

2018-07-12 16:21:34 1259

原创 Spark调度-livy 安装使用

1.下载压缩包,解压https://www.apache.org/dyn/closer.lua/incubator/livy/0.5.0-incubating/livy-0.5.0-incubating-bin.zipunzip livy-0.5.0-incubating-bin.zip 2.配置环境变量vim .profile(ubuntu,redhat/centos .bash_p...

2018-07-12 14:46:32 1653

1.shell 脚本exec $SPARK_HOME/bin/spark-submit \--class com.bigeyedata.mort.Main \--driver-class-path $MORT_HOME/libs/*.jar \--master yarn-client \--deploy-mode cluster \--jars /appcom/mort/thirdparty_ja...

2018-07-12 14:45:31 293

原创 Mongo 命令总结

一.条件查询降序计数:-1 db.ngx.app.api.find().sort({createdTime:-1}).count() 模糊查询: like %M1E% db.ngx.app.user.find({useragentOriginal:{$regex:/M1E/}}) 范围查询: >= and <= db.ngx.app.user.f...

2018-07-05 11:13:32 392

原创 Mongo 数据库授权认证登陆

一授权:　无认证登陆创建认证用户１．use admin2.创建访问某个数据库的用户admin 数据库use admindb.createUser({user:"mongo",pwd:"mongo",roles:[{role:"root",db:"admin"}]})db.createUser({user:"mongo",pwd:"mongo",roles:[{role:"rea

2018-07-05 11:05:10 2213

原创 crontab 无法执行脚本

最近在服务端夜间运行脚本,发现未执行,但是本地却能执行,百思不得其解.后来查证:crontab 内无环境变量,所以任何shell命令需要使用全路径才能执行添加完毕即可执行.援引链接http://bbs.chinaunix.net/thread-1926428-1-1.htmlcrontab -e23 11 4 7 * sh killKafkaConsoleConsume...

2018-07-04 13:46:40 1131

原创 Kafka 命令总结

1.查看topic是否正常: topic副本,leader可在集群任何节点执行opt/kafka_2.11-0.10.0.0/bin/kafka-topics.sh --describe --zookeeper 10.25.133.192:12181,10.26.51.89:12181/kafka10 --topic nongfunginxlog2.验证所指定的一个或多个Topic下每...

2018-07-02 17:41:49 328

elasticsearch-5.6.11.tar.gz

Elasticsearch：,用于全文检索，站内搜索，价格监控，数据监控等，支持近实时响应

2019-08-02

Flume 根据字段进行路由插入 ES

基于Flume-1.8.0，ES-5.6.11 ，根据某个字段创建 type ,进行路由批量插入 ES，使用redis 缓存已从MySQL 查出的转换数据

2019-04-26

高可用mysql

介绍mysql高可用架构原理,搭建,优化,问题诊断,真正理解mysql高可用架构

2017-10-17

JXL-API文档

JXL操作EXCEL文件，对其进行读入，写出操作

2016-12-27

spring-mybatisjar包

2016-12-07

Maven私服Nexus

Maven私服-nexus

2016-12-07

验证码工程源码

在一个系统或项目中，登录时，验证码是不必可少，一来可以为安全登录多了一层保障，二则防止网络的攻击。验证码的生成有多种，有JS实现，也有框架自带，也有用开发语言实现，例如Java。以下介绍下java实现验证码的原理及过程。

2016-11-02

EditPlus绿色汉化版（无须破解）

EditPlus绿色汉化版（无须破解，无付费提示）

2014-03-07

JDBC连接Oralce数据库驱动

JDBC方式连接Oracle数据库的驱动，其中OJDBC5，OJDBC6时两个版本，classes12为单独版本，JDBC连接时需要把任意一个OJDBC版本和classes12一起加到Eclipse或MyEclipse中，否则无法运行。加入后选中工程，右键——〉Add build path正式加载到工程中。