自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(37)
  • 资源 (5)
  • 收藏
  • 关注

原创 常用命令--持续更新

查看进程,比如kafka的:ps -ef|grep kafka-------------------------------------------------------------------- hive:hive客户端启动:hive使用数据库:use 数据库名查看数据库中的表:show tables查看表结构:desc 表名删除空的数据库:DROP DATABASE IF EXISTS ...

2018-04-04 23:11:44 710

原创 编程经验--持续更新

1.kafka+storm在windows下运行的问题:不管是本地运行还是集群运行,都需要修改host文件,添加,kafka集群的机器名(windows+linux)2.mysql通过sqoop向hive导入数据,hive的数据会多出一些 : 需要忽略行记录中的/n分隔符。:--hive-drop-import-delims3.hive执行语句多表join时where中一定要指定哪张表的哪些字段:...

2018-04-04 23:09:40 726

原创 Phonetic symbol 单元音 - 短元音 -- ə

本文主要介绍 单元音 - 短元音 -- ə ə     额 发短音

2018-04-16 20:34:33 658

原创 Phonetic symbol 单元音 - 短元音 ɒ(新)/ ɔ(旧) 与 ʊ/u (机打)

本文主要介绍  单元音 - 短元音 ɒ(新)/ ɔ(旧) 与 ʊ/u (机打) ɒ(新)/ ɔ(旧)   袄 张大嘴  平舌音  pot  cod       lock  rock  boxʊ/u (机打)    呜 张小嘴 卷舌音  put  could  look  rook  books...

2018-04-16 20:18:14 819

原创 Phonetic symbol 清辅音 - θ 与 s

本文介绍 清辅音 - θ 与 sθ  咝~  咬舌尖 发音感觉比较困难   month  thumb  thick  think  path  three  thanks  sheath                                                 third  ninth s                                            ...

2018-04-16 20:01:18 788

原创 Phonetic symbol 单元音 - 短元音 ɒ(新)/ ɔ(旧) 与 长元音 ɔː

本文介绍 单元音 - 短元音  ɒ(新)/ ɔ(旧)  与 长元音 ɔːɒ(新)/ ɔ(旧)  袄 张大嘴  平舌音  cod ɔː                 袄儿 张小嘴  卷舌音 cord

2018-04-16 19:44:34 1157

原创 Phonetic symbol 单元音 - 短元音 -- æ 与 ʌ

本文介绍 两个 单元音 - 短元音 -- æ 与 ʌ æ  艾 张大嘴  平舌音  apple/capʌ 阿 张小嘴  翘舌音  cup

2018-04-16 19:24:25 665

原创 Phonetic symbol 单元音 - 长元音 -- ɜː (新) / ə: (旧) 与 ɔː

本文介绍的是 单元音 - 长元音 -- ɜː  (新) / ə:  (旧) 与 ɔːə                            额 发短音ɜː  (新) / ə:  (旧)   额 发长音    ɔː                              袄儿   张小嘴  卷舌音 ...

2018-04-16 19:11:41 861

原创 MapReduce的shuffle过程

对于大数据计算框架而言,Shuffle阶段的设计优劣势决定性能好坏的关键因素之一。shuffle的优化是一个不断发展的过程。官方图shuffle在map到reduce的过程:Map:Input Split —>  map  —>  buffer in memory  —>  partition  —>  sort  —>  group  —>  combine ...

2018-04-09 12:24:45 453

原创 spark容错机制

集群容错机制Master异常退出后重启:不影响退出之前已经提交的application的运行,但是在退出期间exector的资源释放,异常退出重新调度等功能会受到影响;新的appliaction无法提交;重新启动后原来的已经创建的应用信息和driver信息不会重新上报到master,原有的worker依然会通过heartbeat心跳信息上报,worker检测到master的退出,会重新发出注册的请...

2018-04-07 19:19:30 1418

原创 Spark的调度

Spark的调度 : Spark有多种运行模式,例如:Local/Standalone/YARN/MesosApplication调度 : Application调度就是组由用户提交到Spark中的作业的集合,通过一定的算法,对每个按一定次序分配集群中资源的过程。例如: FIFO模式,用户先提交的作业1优先分配需要的资源,之后提交的作业2再分配资源,以此类推。Job调度 : Job调度就是Appl...

2018-04-06 16:57:03 673

原创 Spark工作机制

spark作业:Application : 用户自定义的spark程序。用户提交后,spark为app分配资源将程序转换并执行。Driver Program : 运行Application的main()函数并创建SparkContext。RDD DAG : 当RDD遇到Action算子,将之前的所有算子形成一个有向无环图(DAG)。再在Spark中转化为job,提交到集群进行执行。一个app中可包...

2018-04-06 16:10:33 761

原创 Spark的架构

spark架构:Spark集群中Master负责集群整体资源管理和调度,Worker负责单个节点的资源管理。Driver程序是应用逻辑执行的起点,而多个Executor用来对数据进行并行处理。Spark的构成 : ClusterManager : 在standalone模式中即为Master,主节点,控制整个集群,监控Worker。在YARN模式中为资源管理器。Worker : 从节点,负责控制计...

2018-04-06 16:10:01 673

原创 sqoop抽取数据理论及常见问题

               sqoop抽取数据问题:倒入ODS原系统表结构修改问题:抽取数据指定字段无影响:无需修改hive表结构  (1).原系统表结构字段顺序调整无影响  (2).原系统增加字段但HDFS不需要,无影响  (3).原系统删减字段,sqoop相应字段放空,无影响  有影响:原系统增加字段:需修改hive表结构  1).不刷历史数据:备份表数据,drop目标表然后create,i...

2018-04-06 00:15:04 4372

原创 maven命令行打jar包

1.在项目目录下:shift+右击选择:在此目录下打开命令窗口2.打jar: mvn clean mvn compile (可选) mvn package mvn -Dmaven.test.skip=true package(mvn package不行就换它)           或:mvn clean package -DskipTests...

2018-04-06 00:13:28 16753 3

原创 redis的使用

Redis是一种高级key-value数据库。它跟memcached类似,不过数据可以持久化,而且支持的数据类型很丰富。有字符串,链表,集合和有序集合。Redis的所有数据都是保存在内存中,然后不定期的通过异步方式保存到磁盘上(这称为“半持久化模式”);也可以把每一次数据变化都写入到一个append only file(aof)里面(这称为“全持久化模式”)。redis可以存储字符串,链表,哈希结...

2018-04-06 00:12:45 477

原创 redis的安装配置

内存数据库 解压需要反编译编译 src目录下:make CFLAGS="-march=x86-64"  (需要编译环境,且64位的)make MALLOC=libc启动服务端 : src下 :./redis-server服务端加载配置文件,并放到后台执行 : 例如 redis-server /data/redis/etc/redis.conf &启动客户端 : src下 : ./redis...

2018-04-06 00:12:18 545

原创 hive的常用函数

类型转换函数:cast('1' as bigint) 日期函数: 返回值类型:String from_unixtime(bigint unixtime[, string format]) 例:from_unixtime(0)="1970-01-01 00:00:00"bigint unix_timestamp() 获取当前的时间戳bigint unix_timestamp(String ...

2018-04-06 00:11:28 547

原创 storm的容错机制

集群容错:1.Nimbus挂掉如果失去了Nimbus节点,Worker也会继续执行;如果workerye消亡,Supervisor会重启worker。但是如果没有Nimbus,worker不会被安排到其他主机节点,客户端也无法提交新的任务。2.zookeeper挂掉zookeeper有主从结构,挂掉无影响。3.Supervisor失败真正执行进程的是worker,所以Supervisor失败不会影...

2018-04-06 00:10:57 1100

原创 线程安全与资源共享

1.局部变量中的基本数据类型(8种)永远是线程安全的。2.局部变量中的对象类型只要不会被其他线程访问到,也是线程安全的。3.一个对象实例被多个线程同时访问时,他的成员变量就可能是线程不安全的。...

2018-04-05 00:36:16 507

原创 线程:同步与阻塞

在网络编程中,常见到:同步(Sync), 异步(Async), 阻塞(Block), 非阻塞(Unblock) 四种调用方式。—————————————————————————————————————————————————同步/异步主要针对C端:同步:      所谓同步,就是在c端发起一个同能调用时,在没有得到结果之前,该调用就不返回。也就是必须一件一件事做,等前一件做完了才能做下一件事。  ...

2018-04-05 00:35:46 674

原创 hive的优化

优化:加快程序运行时间+无数据倾斜数据倾斜的实质:key的分布不均匀场景1:跑得慢场景2:reduce执行到99%(或100%)卡住。查看任务界面,发现只有少量(1个或几个)reduce子任务未完成,因为其处理的数据量比其他reduce子任务处理的大。技术&&数据:1.尽量尽早的过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段2.尽量原子化操作,尽量避...

2018-04-05 00:34:24 614

原创 hive的基本操作

1.描述hive的表对应着hdfs的目录/文件夹hive的数据对应hdfs的文件如果是分区表,则分区值是子文件夹全表扫描,读取多少条不会执行mr任务 : select * from 表名 hive将元数据存在数据库中,目前只支持mysql,derby显示数据库:show databases 默认的为: default库查看当前数据库的有哪些表:show tableshive仓库数据的存放目录:/u...

2018-04-05 00:33:32 380

原创 hive安装配置

Hive:数据仓库。Hive:解释器,编译器,优化器等。Hive运行时,元数据存储在关系型数据库里面。安装一个关系型数据,(mysql):yum  install mysql-server替换jar : 将/usr/hadoop/share/hadoop/yarn/lib 下的 jline*.jar 替换成 hive下的 jline-2.12.jar  (hadoop的此jar版本过低)配置环境变...

2018-04-05 00:15:12 436

原创 hbase的优化

hbase性能调优 : rowkey的设计:设计原则:写入要分散,减少regoin的热点问题 hbase与hive仓库的上层应用服务于:用户画像,报表,做的交付项目用户画像数据上线为亿条:用户行为数据,一条数据很大订单类数据上线为数十亿条:条数众多,但每条数据不是特别大理论上,绝大部分数据都要经过hive加工处理:   1.数据分为内部数据,存在于关系型数据,通过sqoop全量/增量导入到h...

2018-04-05 00:14:06 525

原创 hbase安装配置

解压  : tar -zxvf hbase-0.98.12.1-hadoop2-bin.tar.gz删除 : rm -rf hbase-0.98.12.1-hadoop2-bin.tar.gz重命名 : mv hbase-0.98.12.1-hadoop2-bin.tar.gz hbase编辑 : vi  hbase-env.shexport JAVA_HOME=/usr/java/jdk1.7....

2018-04-05 00:13:06 506

原创 MapReduce计算框架介绍

对大数据可以理解为 : 存储与计算 : hdfs存储 , mapreduce用来计算MapReduce : 离线计算 移动计算而不移动数据 。把写好的程序分别拷贝到不同存在数据的主机上可分为四个阶段 : 一 : split : 从hdfs上存储的数据作为MapReduce的输入 ,即 MapReduce计算的是hdfs上的数据数据分为很多片段(split0 split1 split 2),每一个片...

2018-04-05 00:12:06 962

原创 flume的工作机制

flume的核心组件 :Source: Syslog Source , HDFS Source , HTTP Source , etc , Avro Source , Syslog TCP Source , Syslog TCP Source Exec Source:以运行linux命令的方式,持续的输出最新的数据,如tail-F文件名指令, 在这种方式下,取的文件名必须是指定的。 Spool S...

2018-04-05 00:10:36 2240

原创 logstash的使用

区域中定义插件数据类型 : 布尔boolean,字节Bytes,字符串:String , Number,数组:Array,哈希:Hash字段引用 :%{} 插件 : inputs 输入file : codec=> 默认是plain,可通过这个参数设置编码方式discover_interval=> number,logstash每隔多久去检查一次监听的path下是否有新文件。默认值是1...

2018-04-05 00:09:53 820

原创 kibana的使用

--------------------------基本操作---------------------------单项term查询例 : 随便写字段field查询 field:vlaue 例 : age:26通配符查询例 : h*范围查询例 : age[20 TO 30] []表示两边包括 ; age{20 TO 30} {}表示两边不包括逻辑操作AND OR 例 :name:H* AND age...

2018-04-04 23:33:37 513

原创 elasticsearch的使用

初始化索引 :设置分片的数量,设置备份的数量 。返回值为true则表明初始化索引成功。GET : 获取信息,比如获取索引信息PUT : 创建POST: 更新DELETE : 删除同时检索多个文档 :GET /_mgetbulk批量操作 : 实现多个文档的create,index,update,delete。(json数据格式)版本控制 : 处理并发情况下的资源 悲观锁与乐观锁 : 悲观锁:假定会...

2018-04-04 23:32:32 453

原创 logstash安装

logstash的安装 : jdk : 1.8以上的。解压,配置环境变量。logstash解压bin目录下开启服务 :./logstash -e 'input { stdin { } } output { stdout {} }'1.测试输入 : hello world2.连接elasticsearch配置文件测试 :conf下(此文件夹为自己创建,见名之意)vi hello_search.con...

2018-04-04 23:30:19 529

原创 Kibana安装

Kibana的安装 : kibana解压。设置 : kibana.ymlelasticsearch_url: "http://192.168.216.8:9200"bin目录下 :./kibana验证测试 :浏览器 : http://localhost:5601在logstash服务下随便输入点数据。kibana创建默认的索引。-----------------------------------...

2018-04-04 23:29:47 985

原创 elasticsearch安装

elasticsearch 安装 : jdk : 1.8以上的。解压,配置jdk的环境变量解压elasticsearch启动服务 : bin目录下 : ./elasticsearch -d验证 : 浏览器访问 : http://localhost:9200 elasticsearch 的head插件安装 : 查询工具bin下 : ll有网络情况下 :./plugin -install mob...

2018-04-04 23:28:55 478

原创 eclipse各插件安装

1.安装maven插件:.打开eclipse,help->install new software  add: name:maven名字随便取;Location:http://download.eclipse.org/technology/m2e/releases官网下载maven压缩包apache-maven-3.2.1-bin.tar.gz,并解压到:/Users/mac/Desktop...

2018-04-04 23:26:35 882

原创 HA-Hadoop-yarn安装

检查所有主机date是否一致 ntpdate -u ntp.sjtu.edu.cn 配置ssh的免密码登录 : 登陆ssh : ssh localhost  (ssh node1)ssh-keygen -t rsa  创建密钥(存在于 : ~/.ssh 下)ssh-copy-id node1  +  两次输入密码三台主机 : node1 :namenode , datanode , zkfc  (...

2018-04-04 23:21:44 554

原创 nginx

解决高并发NginxNginx ("engine x") 是一个高性能的 HTTP 和 反向代理 服务器,也是一个 IMAP/POP3/SMTP 代理服务器。第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布,因它的稳定性、丰富的功能集、示例配置文件和低系统资源的消耗而闻名。2011年6月1日,nginx 1.0.4发布。Nginx是一款轻量级的Web 服务...

2018-04-04 23:16:55 409

Spark算子实例maven版

spark各算子实例,eclipse版maven项目。支持原创,有何问题联系作者

2018-04-06

Scikit-learn中文文档

Scikit-learn中文文档,入门级别简介。通俗易懂。欢迎支持下载

2018-04-05

NumPy中文文档

NumPy中文文档,数据分析利器。欢迎下载分享。多谢支持

2018-04-05

Panadas中文文档

Panadas中文文档,简单易学。数据分析必学。数据多维分析

2018-04-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除