2018年04月_Dream__Sky_

原创常用命令--持续更新

查看进程，比如kafka的：ps -ef|grep kafka-------------------------------------------------------------------- hive:hive客户端启动：hive使用数据库：use 数据库名查看数据库中的表：show tables查看表结构：desc 表名删除空的数据库：DROP DATABASE IF EXISTS ...

2018-04-04 23:11:44 710

原创编程经验--持续更新

1.kafka+storm在windows下运行的问题：不管是本地运行还是集群运行，都需要修改host文件，添加，kafka集群的机器名（windows+linux）2.mysql通过sqoop向hive导入数据，hive的数据会多出一些：需要忽略行记录中的/n分隔符。：--hive-drop-import-delims3.hive执行语句多表join时where中一定要指定哪张表的哪些字段：...

2018-04-04 23:09:40 726

原创 Phonetic symbol 单元音 - 短元音 -- ə

本文主要介绍单元音 - 短元音 -- ə ə 额发短音

2018-04-16 20:34:33 658

原创 Phonetic symbol 单元音 - 短元音 ɒ(新)/ ɔ(旧) 与 ʊ/u (机打)

本文主要介绍单元音 - 短元音 ɒ(新)/ ɔ(旧) 与 ʊ/u (机打) ɒ(新)/ ɔ(旧) 袄张大嘴平舌音 pot cod lock rock boxʊ/u (机打) 呜张小嘴卷舌音 put could look rook books...

2018-04-16 20:18:14 819

原创 Phonetic symbol 清辅音 - θ 与 s

本文介绍清辅音 - θ 与 sθ 咝～咬舌尖发音感觉比较困难 month thumb thick think path three thanks sheath third ninth s ...

2018-04-16 20:01:18 788

原创 Phonetic symbol 单元音 - 短元音 ɒ(新)/ ɔ(旧) 与长元音 ɔː

本文介绍单元音 - 短元音 ɒ(新)/ ɔ(旧) 与长元音 ɔːɒ(新)/ ɔ(旧) 袄张大嘴平舌音 cod ɔː 袄儿张小嘴卷舌音 cord

2018-04-16 19:44:34 1157

原创 Phonetic symbol 单元音 - 短元音 -- æ 与 ʌ

本文介绍两个单元音 - 短元音 -- æ 与 ʌ æ 艾张大嘴平舌音 apple/capʌ 阿张小嘴翘舌音 cup

2018-04-16 19:24:25 665

原创 Phonetic symbol 单元音 - 长元音 -- ɜː (新) / ə: (旧) 与 ɔː

本文介绍的是单元音 - 长元音 -- ɜː (新) / ə: (旧) 与 ɔːə 额发短音ɜː (新) / ə: (旧) 额发长音 ɔː 袄儿张小嘴卷舌音 ...

2018-04-16 19:11:41 861

原创 MapReduce的shuffle过程

对于大数据计算框架而言，Shuffle阶段的设计优劣势决定性能好坏的关键因素之一。shuffle的优化是一个不断发展的过程。官方图shuffle在map到reduce的过程：Map：Input Split —> map —> buffer in memory —> partition —> sort —> group —> combine ...

2018-04-09 12:24:45 453

原创 spark容错机制

集群容错机制Master异常退出后重启：不影响退出之前已经提交的application的运行，但是在退出期间exector的资源释放，异常退出重新调度等功能会受到影响；新的appliaction无法提交；重新启动后原来的已经创建的应用信息和driver信息不会重新上报到master，原有的worker依然会通过heartbeat心跳信息上报，worker检测到master的退出，会重新发出注册的请...

2018-04-07 19:19:30 1418

原创 Spark的调度

Spark的调度： Spark有多种运行模式，例如：Local/Standalone/YARN/MesosApplication调度： Application调度就是组由用户提交到Spark中的作业的集合，通过一定的算法，对每个按一定次序分配集群中资源的过程。例如： FIFO模式，用户先提交的作业1优先分配需要的资源，之后提交的作业2再分配资源，以此类推。Job调度： Job调度就是Appl...

2018-04-06 16:57:03 673

原创 Spark工作机制

spark作业：Application ：用户自定义的spark程序。用户提交后，spark为app分配资源将程序转换并执行。Driver Program ：运行Application的main()函数并创建SparkContext。RDD DAG ：当RDD遇到Action算子，将之前的所有算子形成一个有向无环图(DAG)。再在Spark中转化为job，提交到集群进行执行。一个app中可包...

2018-04-06 16:10:33 761

原创 Spark的架构

spark架构：Spark集群中Master负责集群整体资源管理和调度，Worker负责单个节点的资源管理。Driver程序是应用逻辑执行的起点，而多个Executor用来对数据进行并行处理。Spark的构成： ClusterManager ：在standalone模式中即为Master，主节点，控制整个集群，监控Worker。在YARN模式中为资源管理器。Worker ：从节点，负责控制计...

2018-04-06 16:10:01 673

原创 sqoop抽取数据理论及常见问题

sqoop抽取数据问题：倒入ODS原系统表结构修改问题：抽取数据指定字段无影响：无需修改hive表结构 (1).原系统表结构字段顺序调整无影响 (2).原系统增加字段但HDFS不需要,无影响 (3).原系统删减字段,sqoop相应字段放空,无影响有影响：原系统增加字段：需修改hive表结构 1).不刷历史数据:备份表数据,drop目标表然后create,i...

2018-04-06 00:15:04 4372

原创 maven命令行打jar包

1.在项目目录下：shift+右击选择：在此目录下打开命令窗口2.打jar: mvn clean mvn compile (可选) mvn package mvn -Dmaven.test.skip=true package（mvn package不行就换它）或：mvn clean package -DskipTests...

2018-04-06 00:13:28 16753 3

原创 redis的使用

Redis是一种高级key-value数据库。它跟memcached类似，不过数据可以持久化，而且支持的数据类型很丰富。有字符串，链表，集合和有序集合。Redis的所有数据都是保存在内存中，然后不定期的通过异步方式保存到磁盘上(这称为“半持久化模式”)；也可以把每一次数据变化都写入到一个append only file(aof)里面(这称为“全持久化模式”)。redis可以存储字符串，链表，哈希结...

2018-04-06 00:12:45 477

原创 redis的安装配置

内存数据库解压需要反编译编译 src目录下：make CFLAGS="-march=x86-64" （需要编译环境,且64位的）make MALLOC=libc启动服务端： src下：./redis-server服务端加载配置文件，并放到后台执行：例如 redis-server /data/redis/etc/redis.conf &启动客户端： src下： ./redis...

2018-04-06 00:12:18 545

原创 hive的常用函数

类型转换函数：cast('1' as bigint) 日期函数：返回值类型：String from_unixtime(bigint unixtime[, string format]) 例：from_unixtime(0)="1970-01-01 00:00:00"bigint unix_timestamp() 获取当前的时间戳bigint unix_timestamp(String ...

2018-04-06 00:11:28 547

原创 storm的容错机制

集群容错：1.Nimbus挂掉如果失去了Nimbus节点，Worker也会继续执行；如果workerye消亡，Supervisor会重启worker。但是如果没有Nimbus，worker不会被安排到其他主机节点，客户端也无法提交新的任务。2.zookeeper挂掉zookeeper有主从结构，挂掉无影响。3.Supervisor失败真正执行进程的是worker，所以Supervisor失败不会影...

2018-04-06 00:10:57 1100

原创线程安全与资源共享

1.局部变量中的基本数据类型(8种)永远是线程安全的。2.局部变量中的对象类型只要不会被其他线程访问到，也是线程安全的。3.一个对象实例被多个线程同时访问时，他的成员变量就可能是线程不安全的。...

2018-04-05 00:36:16 507

原创线程：同步与阻塞

在网络编程中，常见到：同步(Sync)，异步(Async)，阻塞(Block)，非阻塞(Unblock) 四种调用方式。—————————————————————————————————————————————————同步／异步主要针对C端：同步：所谓同步，就是在c端发起一个同能调用时，在没有得到结果之前，该调用就不返回。也就是必须一件一件事做，等前一件做完了才能做下一件事。 ...

2018-04-05 00:35:46 674

原创 hive的优化

优化：加快程序运行时间+无数据倾斜数据倾斜的实质：key的分布不均匀场景1：跑得慢场景2：reduce执行到99%(或100%)卡住。查看任务界面，发现只有少量(1个或几个)reduce子任务未完成，因为其处理的数据量比其他reduce子任务处理的大。技术&&数据：1.尽量尽早的过滤数据，减少每个阶段的数据量，对于分区表要加分区，同时只选择需要使用到的字段2.尽量原子化操作，尽量避...

2018-04-05 00:34:24 614

原创 hive的基本操作

1.描述hive的表对应着hdfs的目录/文件夹hive的数据对应hdfs的文件如果是分区表，则分区值是子文件夹全表扫描，读取多少条不会执行mr任务 : select * from 表名 hive将元数据存在数据库中，目前只支持mysql,derby显示数据库：show databases 默认的为: default库查看当前数据库的有哪些表：show tableshive仓库数据的存放目录：/u...

2018-04-05 00:33:32 380

原创 hive安装配置

Hive:数据仓库。Hive：解释器，编译器，优化器等。Hive运行时，元数据存储在关系型数据库里面。安装一个关系型数据，（mysql）：yum install mysql-server替换jar ：将/usr/hadoop/share/hadoop/yarn/lib 下的 jline*.jar 替换成 hive下的 jline-2.12.jar （hadoop的此jar版本过低）配置环境变...

2018-04-05 00:15:12 436

原创 hbase的优化

hbase性能调优： rowkey的设计：设计原则：写入要分散，减少regoin的热点问题 hbase与hive仓库的上层应用服务于：用户画像，报表，做的交付项目用户画像数据上线为亿条：用户行为数据，一条数据很大订单类数据上线为数十亿条：条数众多，但每条数据不是特别大理论上，绝大部分数据都要经过hive加工处理： 1.数据分为内部数据，存在于关系型数据，通过sqoop全量／增量导入到h...

2018-04-05 00:14:06 525

原创 hbase安装配置

解压： tar -zxvf hbase-0.98.12.1-hadoop2-bin.tar.gz删除： rm -rf hbase-0.98.12.1-hadoop2-bin.tar.gz重命名： mv hbase-0.98.12.1-hadoop2-bin.tar.gz hbase编辑 : vi hbase-env.shexport JAVA_HOME=/usr/java/jdk1.7....

2018-04-05 00:13:06 506

原创 MapReduce计算框架介绍

对大数据可以理解为：存储与计算： hdfs存储， mapreduce用来计算MapReduce : 离线计算移动计算而不移动数据。把写好的程序分别拷贝到不同存在数据的主机上可分为四个阶段：一： split : 从hdfs上存储的数据作为MapReduce的输入，即 MapReduce计算的是hdfs上的数据数据分为很多片段（split0 split1 split 2）,每一个片...

2018-04-05 00:12:06 962

原创 flume的工作机制

flume的核心组件 :Source: Syslog Source , HDFS Source , HTTP Source , etc , Avro Source , Syslog TCP Source , Syslog TCP Source Exec Source：以运行linux命令的方式，持续的输出最新的数据，如tail-F文件名指令，在这种方式下，取的文件名必须是指定的。 Spool S...

2018-04-05 00:10:36 2240

原创 logstash的使用

区域中定义插件数据类型：布尔boolean，字节Bytes,字符串:String , Number,数组：Array,哈希:Hash字段引用：%{} 插件： inputs 输入file : codec=> 默认是plain,可通过这个参数设置编码方式discover_interval=> number,logstash每隔多久去检查一次监听的path下是否有新文件。默认值是1...

2018-04-05 00:09:53 820

原创 kibana的使用

--------------------------基本操作---------------------------单项term查询例 : 随便写字段field查询 field:vlaue 例 : age:26通配符查询例 : h*范围查询例 : age[20 TO 30] []表示两边包括 ; age{20 TO 30} {}表示两边不包括逻辑操作AND OR 例：name:H* AND age...

2018-04-04 23:33:37 513

原创 elasticsearch的使用

初始化索引：设置分片的数量，设置备份的数量。返回值为true则表明初始化索引成功。GET ：获取信息，比如获取索引信息PUT : 创建POST: 更新DELETE ：删除同时检索多个文档：GET /_mgetbulk批量操作：实现多个文档的create,index,update,delete。（json数据格式）版本控制：处理并发情况下的资源悲观锁与乐观锁：悲观锁：假定会...

2018-04-04 23:32:32 453

原创 logstash安装

logstash的安装： jdk : 1.8以上的。解压，配置环境变量。logstash解压bin目录下开启服务：./logstash -e 'input { stdin { } } output { stdout {} }'1.测试输入： hello world2.连接elasticsearch配置文件测试：conf下（此文件夹为自己创建，见名之意）vi hello_search.con...

2018-04-04 23:30:19 529

原创 Kibana安装

Kibana的安装： kibana解压。设置： kibana.ymlelasticsearch_url: "http://192.168.216.8:9200"bin目录下：./kibana验证测试：浏览器： http://localhost:5601在logstash服务下随便输入点数据。kibana创建默认的索引。-----------------------------------...

2018-04-04 23:29:47 985

原创 elasticsearch安装

elasticsearch 安装： jdk : 1.8以上的。解压，配置jdk的环境变量解压elasticsearch启动服务： bin目录下 : ./elasticsearch -d验证：浏览器访问： http://localhost:9200 elasticsearch 的head插件安装：查询工具bin下 : ll有网络情况下：./plugin -install mob...

2018-04-04 23:28:55 478

原创 eclipse各插件安装

1.安装maven插件：.打开eclipse，help－>install new software add: name:maven名字随便取；Location:http://download.eclipse.org/technology/m2e/releases官网下载maven压缩包apache-maven-3.2.1-bin.tar.gz，并解压到：/Users/mac/Desktop...

2018-04-04 23:26:35 882

原创 HA-Hadoop-yarn安装

检查所有主机date是否一致 ntpdate -u ntp.sjtu.edu.cn 配置ssh的免密码登录：登陆ssh ： ssh localhost (ssh node1)ssh-keygen -t rsa 创建密钥（存在于 : ~/.ssh 下）ssh-copy-id node1 + 两次输入密码三台主机 : node1 ：namenode , datanode , zkfc (...

2018-04-04 23:21:44 554

原创 nginx

解决高并发NginxNginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源的消耗而闻名。2011年6月1日，nginx 1.0.4发布。Nginx是一款轻量级的Web 服务...

2018-04-04 23:16:55 409

Spark算子实例maven版

Scikit-learn中文文档

NumPy中文文档

Panadas中文文档

空空如也