自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 资源 (15)
  • 收藏
  • 关注

原创 Spark 开发优化

文件存储分区规则: /houseId=?/dayId=?/hourId=?/minutet=5(5分钟产生一个文件)存在问题:1.收敛参数coalesce失效,小文件特别多不同houseId(区域)的数据差异很大(如北上广与新疆西藏订单数据),导致清洗产生大量小文件100G原始文件,清洗后产生10万多个文件2.数据入库延迟大因为kafka 不同分区流速差异大,HDFS数据有延迟几个...

2018-07-30 03:57:36 275

原创 ES 问题总结

1.spark-es 无法处理数组类型字段18/05/05 15:32:27 WARN sql.ScalaRowValueReader: Field 'hobby' is backed by an array but the associated Spark Schema does not reflect this;              (use es.read.field.as.ar...

2018-07-30 03:56:52 654

原创 ES 数据迁移至HDFS

es 备份存储方式支持以下几种方式:fs 文件挂载url 网络协议存储 (http,https,ftp)s3 亚马逊hdfsazure 微软gcs 谷歌(1) repository(仓库)es集群中,想要备份数据,必须创建仓库,用来存储快照,一个集群可以创建多个仓库(2) snapshot (快照)创建仓库后,我们可以创建快照,创建快照时必须指定一个仓库,需要依附某个仓...

2018-07-30 03:56:23 3140 1

原创 ES 相关基本概念

1.index  --同RDBMS 的schema  数据库类型2.Type 类型 --同数据表3.Document --同RDBMS 一组关系:一条记录4.Field :字段对应列ES 主从架构,去中心花(任意节点都可以同ES集群通信,并且是等价,P2P网络架构,即使master,又是data节点主节点(master node),数据节点(data node)主节点:...

2018-07-30 03:55:40 1024

原创 ES安装文档

一 安装ES1.下载ES,header(ES集群图形管理),Node(npm安装header)2.解压ESunzip  elasticsearch-5.6.4.zip3.配置ES 的.yml文件,对应用户下的.profile文件进行全局执行命令(1) vim elasticsearch.ymlcluster.name: my-es## -------------------...

2018-07-30 03:54:51 414

原创 yarn cluster 与yarn client区别

yarn-client:1.提交方式export HADOOP_CONF_DIR=XXX./bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master yarn-client \ --executor-memory 2g --jars /usr/cdh/hive/lib/mysql-con...

2018-07-30 03:53:54 871 1

原创 kafka 总结

kafka-零字节拷贝1.数据从内核复制到套接字缓冲区2.从套接字缓冲区复制到NIC(网络适配器)缓冲区--网络传输传统: 1.数据从磁盘读取到内核空间的pagecache中2.应用程序从内核空间读取数据到用户空间缓冲区3.应用程序将数据从内核空间复制到套接字缓冲区4.从套接字缓冲区复制到NIC(网络适配器)缓冲区Spark Streaming + Kafka 整合Rece...

2018-07-30 03:51:47 873

原创 ES 安装文档

一 安装ES1.下载ES,header(ES集群图形管理),Node(npm安装header)2.解压ESunzip  elasticsearch-5.6.4.zip3.配置ES 的.yml文件,对应用户下的.profile文件进行全局执行命令(1) vim elasticsearch.ymlcluster.name: my-es## -------------------...

2018-07-30 03:50:54 286

原创 pyspark RDD 入门

#import pyhdfs#顶级项目目录#from spark.demo import demo2#! /usr/bin/python# -*- coding:utf-8 -*-import sysfrom pyspark.sql import SparkSessionimport operator as opclass PropertiesUtil: ...

2018-07-30 03:35:41 488

原创 Python 常见数据结构

一 字符串:通过下标获取元素  声明变量 str=''str(x)(1) 字符串元素字符索引:[indexId]  >>> var1 = "Hello world">>> var2 = "Python Rnnob">>> print "var1[0]",var1[0]var1[0] H字符串截取成子

2018-07-30 03:21:45 402

原创 pycharam + spark整合

1.下载pycharm 2.安装python(linux,mac一般都有python2.7,3.5)略3.安装spark 环境,不是重点略.4.安装pipcurl -O https://bootstrap.pypa.io/get-pip.py 使用Python安装pip(升级pip install --upgrade pip [如需要 sudo]python get-pip....

2018-07-27 10:57:39 284

原创 linux系统资源管理

一 .查看CPU核数1查看CPU 物理核数cat /proc/cpuinfo | grep "physical id" |sort -u | wc -l2查看CPU 逻辑核数hadoop@hadoop:~$ cat /proc/cpuinfo | grep "core id" |sort -u | wc -l二 .top top -p PID 查看该进程的信息top...

2018-07-27 10:18:15 305

原创 git 分支管理,添加tag

本地---->stage:暂存git commmit "提交注释"新仓库创建dev分支git checkout -b devstage:暂存----->sourcegit push origin source 源端地址更新内容 git pull source 源端地址删除远程分支: git push origin :远程分支名git pus...

2018-07-24 13:53:12 430

原创 git 项目管理

 一  .拉取远程工程到本地1. 先克隆git clone  ssh/https gitlab地址二. 查看当前分支,并进行切换到要提交代码文件的分支1.git branch -a :查看源端所有分支2.git checkout Recsys_second :切换到Recsys_second分支3.进入到文件(或者自己创建文件作为代码提交目录,便于管理),复制要提交代...

2018-07-24 13:51:22 187

原创 kafka 监控工具

一 kafka某个offset的监控工具(1).开源社区有相应的组件进行监控a.下载 kafka offset监控 (地址链接)https://pan.baidu.com/s/1sj0YERV  (如果失效,可以上社区搜索)b. 解压后发现KafkaOffsetMonitor-assembly-0.2.1.jar,即为监控组件c.编写脚本(可定时启动)KafkaOffsetMonitor...

2018-07-13 10:58:37 1746

原创 定时 关闭Spark-Submit ,Kafka

 一.spark-submitvim stopSparksubmit.sh#! /bin/basha=0while  true do#SparkSubmitid=`/usr/jdk8/bin/jps  | /bin/grep -v grep | /bin/grep SparkSubmit | /usr/bin/cut  -d " " -f 1`SparkSubmitid=`/usr/jdk8/bi...

2018-07-12 16:21:34 1259

原创 Spark调度-livy 安装使用

1.下载压缩包,解压https://www.apache.org/dyn/closer.lua/incubator/livy/0.5.0-incubating/livy-0.5.0-incubating-bin.zipunzip  livy-0.5.0-incubating-bin.zip 2.配置环境变量vim .profile(ubuntu,redhat/centos .bash_p...

2018-07-12 14:46:32 1653

原创 spark-submit相关

1.shell 脚本exec $SPARK_HOME/bin/spark-submit \--class com.bigeyedata.mort.Main \--driver-class-path $MORT_HOME/libs/*.jar \--master yarn-client \--deploy-mode cluster \--jars /appcom/mort/thirdparty_ja...

2018-07-12 14:45:31 293

原创 Mongo 命令总结

一.条件查询   降序计数:-1   db.ngx.app.api.find().sort({createdTime:-1}).count()      模糊查询: like %M1E%   db.ngx.app.user.find({useragentOriginal:{$regex:/M1E/}})     范围查询:  >= and  <=   db.ngx.app.user.f...

2018-07-05 11:13:32 392

原创 Mongo 数据库授权认证登陆

一 授权: 无认证登陆创建认证用户1.use admin2.创建访问某个数据库的用户admin 数据库use admindb.createUser({user:"mongo",pwd:"mongo",roles:[{role:"root",db:"admin"}]})db.createUser({user:"mongo",pwd:"mongo",roles:[{role:"rea

2018-07-05 11:05:10 2213

原创 crontab 无法执行脚本

最近在服务端夜间运行脚本,发现未执行,但是本地却能执行,百思不得其解.后来查证:crontab 内无环境变量,所以任何shell命令需要使用全路径才能执行添加完毕即可执行.援引链接http://bbs.chinaunix.net/thread-1926428-1-1.htmlcrontab -e23 11 4 7 * sh killKafkaConsoleConsume...

2018-07-04 13:46:40 1131

原创 Kafka 命令总结

1.查看topic是否正常: topic副本,leader可在集群任何节点执行opt/kafka_2.11-0.10.0.0/bin/kafka-topics.sh    --describe   --zookeeper 10.25.133.192:12181,10.26.51.89:12181/kafka10 --topic  nongfunginxlog2.验证所指定的一个或多个Topic下每...

2018-07-02 17:41:49 328

elasticsearch-5.6.11.tar.gz

Elasticsearch:,用于全文检索,站内搜索,价格监控,数据监控等,支持近实时响应

2019-08-02

Flume 根据字段进行路由插入 ES

基于Flume-1.8.0,ES-5.6.11 , 根据某个字段创建 type ,进行路由批量插入 ES,使用redis 缓存已从MySQL 查出的转换数据

2019-04-26

高可用mysql

介绍mysql高可用架构原理,搭建,优化,问题诊断,真正理解mysql高可用架构

2017-10-17

推荐系统手册(英文版)

推荐系统权威之作,深入介绍推荐系统经典算法,推荐指标评估,推荐戏台测试方法

2017-10-17

JXL-API文档

JXL操作EXCEL文件,对其进行读入,写出操作

2016-12-27

spring-mybatisjar包

spring-mybatisjar包

2016-12-07

Maven私服Nexus

Maven私服-nexus

2016-12-07

验证码工程源码

在一个系统或项目中,登录时,验证码是不必可少,一来可以为安全登录多了一层保障,二则防止网络的攻击。验证码的生成有多种,有JS实现,也有框架自带,也有用开发语言实现,例如Java。以下介绍下java实现验证码的原理及过程。

2016-11-02

EditPlus绿色汉化版(无须破解)

EditPlus绿色汉化版(无须破解,无付费提示)

2014-03-07

JDBC连接Oralce数据库驱动

JDBC方式连接Oracle数据库的驱动,其中OJDBC5,OJDBC6时两个版本,classes12为单独版本,JDBC连接时需要把任意一个OJDBC版本和classes12一起加到Eclipse或MyEclipse中,否则无法运行。加入后选中工程,右键——〉Add build path正式加载到工程中。

2014-03-07

sql server 2005 驱动

sql server 2005 驱动,用于java代码与数据库的连接

2013-09-12

java思想篇

关于java的核心基础知识,给以细致独到的讲解,笔者为资深行业专家。

2013-05-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除