大数据学习

最新推荐文章于 2022-09-20 09:30:55 发布

骑牛看日落

最新推荐文章于 2022-09-20 09:30:55 发布

阅读量324

点赞数

分类专栏：笔记文章标签：大数据 hadoop spark flink linux

本文链接：https://blog.csdn.net/GAOneS/article/details/118109754

版权

笔记专栏收录该内容

8 篇文章 0 订阅

订阅专栏

一、Hadoop、HDFS、Mapreduce、Yarn：

Linux

shell、高并发架构、lucene、solr

一、shell：

1、Hello World：

$ mkdir bin; cd bin
$ vim hello.sh
#!/bin/bash
# Program:
# This program shows "Hello World!" in your screen.
# History:
# 2015/07/16 VBird First release
PATH=/bin:/sbin:/usr/bin:/usr/sbin:/usr/local/bin:/usr/local/sbin:~/bin
export PATH
echo -e "Hello World! \a \n"
exit 0

#!/bin/bash <在宣告这个 script 使用的 shell 名称>

这里使用的是 bash，所以，必须要以“ #!/bin/bash ”来宣告这个文件内的语法使用 bash 的语法！程序被执行时，能够自动载入 bash 的相关环境配置文件

程序内容的说明： 除了第一行的“ #! ”用来宣告shell的名称之外，其他的#都是“注解”用途！

一般用来说明该 script 的：

1. 内容与功能； 2. 版本信息； 3. 作者与联络方式； 4. 创建日期；5. 历史纪录等等

主要环境变量的宣告： 设置一些重要的环境变量

PATH 与 LANG （如果有使用到输出相关的信息时）

主要程序部分： 主要逻辑程序 script

执行成果告知：<定义回传值>

一个指令的执行成功与否，可以使用 $? 这个变量来判断

利用 exit 这个指令来让程序中断，并且回传一个数值给系统。

eg：exit 0 ，这代表离开 script 并且回传一个 0 给系统，所以执行完这个 script 后，若接着下达 echo $? 则可得到 0 的值。

$ sh hello.sh 
Hello World !

2、script：

交互式脚本：变量内容由使用者决定

$ vim showname.sh 
#!/bin/bash 
# Program: 
#     User inputs his first name and last name. Program shows his full name. 
# History: 
# 2015/07/16 VBird First release PATH=/bin:/sbin:/usr/bin:/usr/sbin:/usr/local/bin:/usr/local/sbin:~/bin 
export PATH 
read -p "Please input your first name: " firstname         # 提示使用者输入 
read -p "Please input your last name: " lastname           # 提示使用者输入 
echo -e "\nYour full name is: ${firstname} ${lastname}"    # 结果由屏幕输出

随日期变化：利用 date 进行文件的创建

$ vim create_3_filename.sh 
#!/bin/bash 
# Program: 
# Program creates three files, which named by user's input and date command. 
# History: 
# 2015/07/16 VBird First release PATH=/bin:/sbin:/usr/bin:/usr/sbin:/usr/local/bin:/usr/local/sbin:~/bin export PATH 

# 1\. 让使用者输入文件名称，并取得 fileuser 这个变量； 
echo -e "I will use 'touch' command to create 3 files." # 纯粹显示信息 
read -p "Please input your filename: " fileuser # 提示使用者输入 

# 2\. 为了避免使用者随意按 Enter , 利用[变量功能](../Text/index.html#variable_other_re)分析文件名是否有设置？ 
filename=${fileuser:-"filename"} # 开始判断有否配置文件名 

# 3\. 开始利用 date 指令来取得所需要的文件名了
date1=$（date --date='2 days ago' +%Y%m%d） # 前两天的日期 
date2=$（date --date='1 days ago' +%Y%m%d） # 前一天的日期 
date3=$（date +%Y%m%d）         # 今天的日期 

file1=${filename}${date1}       # 下面三行在配置文件名 
file2=${filename}${date2} 
file3=${filename}${date3} 

# 4\. 将文件名创建吧！ 
touch "${file1}" # 下面三行在创建文件 
touch "${file2}" 
touch "${file3}"

数值运算：简单的加减乘除

$ vim multiplying.sh 
#!/bin/bash 
# Program: 
# User inputs 2 integer numbers; program will cross these two numbers. 
# History: 
# 2015/07/16 VBird First release PATH=/bin:/sbin:/usr/bin:/usr/sbin:/usr/local/bin:/usr/local/sbin:~/bin 
export PATH echo -e "You SHOULD input 2 numbers, I will multiplying them! \n" 
read -p "first number: " firstnu 
read -p "second number: " secnu 
total=$（（${firstnu}*${secnu}）） 
echo -e "\nThe result of ${firstnu} x ${secnu} is ==&gt; ${total}"

3、条件判断式：

单层、简单条件判断式

if [ 条件判断式 ]; then 
    当条件判断式成立时，可以进行的指令工作内容； 
fi &lt;==将 if 反过来写，就成为 fi 啦！结束 if 之意！

&& 代表 AND ；

|| 代表 or ；

$ cp ans_yn.sh ans_yn-2.sh &lt;==用复制来修改的比较快！ 
$ vim ans_yn-2.sh 
#!/bin/bash 
# Program: 
# This program shows the user's choice 
# History: 
# 2015/07/16 VBird First release PATH=/bin:/sbin:/usr/bin:/usr/sbin:/usr/local/bin:/usr/local/sbin:~/bin 
export PATH 

read -p "Please input （Y/N）: " yn 
if [ "${yn}" == "Y" ] &    #124;&    #124; [ "${yn}" == "y" ]; then 
    echo "OK, continue" 
    exit 0 
fi
if [ "${yn}" == "N" ] &    #124;&    #124; [ "${yn}" == "n" ]; then 
    echo "Oh, interrupt!" 
    exit 0 
fi
echo "I don't know what your choice is" && exit 0

多重、复杂条件判断式

# 一个条件判断，分成功进行与失败进行 （else） 
if [ 条件判断式 ]; then 
    当条件判断式成立时，可以进行的指令工作内容； 
else
    当条件判断式不成立时，可以进行的指令工作内容； 
fi

# 多个条件判断 （if ... elif ... elif ... else） 分多种不同情况执行 
if [ 条件判断式一 ]; then 
    当条件判断式一成立时，可以进行的指令工作内容； 
elif [ 条件判断式二 ]; then 
    当条件判断式二成立时，可以进行的指令工作内容； 
else
    当条件判断式一与二均不成立时，可以进行的指令工作内容； 
fi

$ cp ans_yn-2.sh ans_yn-3.sh 
$ vim ans_yn-3.sh 
#!/bin/bash 
# Program: 
# This program shows the user's choice # History: 
# 2015/07/16 VBird First release PATH=/bin:/sbin:/usr/bin:/usr/sbin:/usr/local/bin:/usr/local/sbin:~/bin 
export PATH 
read -p "Please input （Y/N）: " yn if [ "${yn}" == "Y" ] &#124;&#124; [ "${yn}" == "y" ]; then 
    echo "OK, continue" 
elif [ "${yn}" == "N" ] &#124;&#124; [ "${yn}" == "n" ]; then 
    echo "Oh, interrupt!" 
else
    echo "I don't know what your choice is" 
fi

$ vim hello-2.sh 
#!/bin/bash 
# Program: 
# Check $1 is equal to "hello" 
# History: 
# 2015/07/16 VBird First release PATH=/bin:/sbin:/usr/bin:/usr/sbin:/usr/local/bin:/usr/local/sbin:~/bin 
export PATH 
if [ "${1}" == "hello" ]; then 
    echo "Hello, how are you ?" 
elif [ "${1}" == "" ]; then 
    echo "You MUST input parameters, ex&gt; {${0} someword}" 
else
    echo "The only parameter is 'hello', ex&gt; {${0} hello}" 
fi

几个常见的 port 与相关网络服务的关系：

80: WWW
22: ssh
21: ftp
25: mail
111: RPC（远端程序调用）
631: CUPS（打印服务功能）

4、循环（ loop ）：

while do done, until do done （不定循环）

while [ condition ]     &lt;==中括号内的状态就是判断式 
do             &lt;==do 是循环的开始！ 
    程序段落 
done           &lt;==done 是循环的结束

until [ condition ] 
do 
    程序段落 
done

$ vim yes_to_stop.sh 
#!/bin/bash 
# Program: 
#     Repeat question until user input correct answer. 
# History: 
# 2015/07/17 VBird First release PATH=/bin:/sbin:/usr/bin:/usr/sbin:/usr/local/bin:/usr/local/sbin:~/bin 
export PATH 

while [ "${yn}" != "yes" -a "${yn}" != "YES" ] 
do 
    read -p "Please input yes/YES to stop this program: " yn 
done 
echo "OK! you input the correct answer."

$ vim yes_to_stop-2.sh 
#!/bin/bash 
# Program: 
# Repeat question until user input correct answer. 
# History: # 2015/07/17 VBird First release PATH=/bin:/sbin:/usr/bin:/usr/sbin:/usr/local/bin:/usr/local/sbin:~/bin 
export PATH 

until [ "${yn}" == "yes" -o "${yn}" == "YES" ] 
do 
    read -p "Please input yes/YES to stop this program: " yn 
done 
echo "OK! you input the correct answer."

$ vim cal_1_100.sh 
#!/bin/bash 
# Program: 
#     Use loop to calculate "1+2+3+...+100" result. 
# History: 
# 2015/07/17 VBird First release PATH=/bin:/sbin:/usr/bin:/usr/sbin:/usr/local/bin:/usr/local/sbin:~/bin 
export PATH 

s=0 # 这是加总的数值变量 
i=0 # 这是累计的数值，亦即是 1, 2, 3.... 
while [ "${i}" != "100" ] 
do 
    i=$（（$i+1）） # 每次 i 都会增加 1 
    s=$（（$s+$i）） # 每次都会加总一次！ 
done 
echo "The result of '1+2+3+...+100' is ==&gt; $s"

for...do...done （固定循环）

for var in con1 con2 con3 ... 
do 
    程序段 
done

$ vim show_animal.sh 
#!/bin/bash 
# Program: 
# Using for .... loop to print 3 animals 
# History: 
# 2015/07/17 VBird First release PATH=/bin:/sbin:/usr/bin:/usr/sbin:/usr/local/bin:/usr/local/sbin:~/bin 
export PATH 

for animal in dog cat elephant 
do 
    echo "There are ${animal}s.... " 
done

$ vim userid.sh 
#!/bin/bash 
# Program 
# Use id, finger command to check system account's information. 
# History 
# 2015/07/17 VBird first release PATH=/bin:/sbin:/usr/bin:/usr/sbin:/usr/local/bin:/usr/local/sbin:~/bin 
export PATH 
users=$（cut -d ':' -f1 /etc/passwd） # 撷取帐号名称 
for username in ${users} # 开始循环进行！ 
do 
    id ${username} 
done

$ vim pingip.sh 
#!/bin/bash 
# Program 
# Use ping command to check the network's PC state. 
# History 
# 2015/07/17 VBird first release PATH=/bin:/sbin:/usr/bin:/usr/sbin:/usr/local/bin:/usr/local/sbin:~/bin 
export PATH 
network="192.168.1" # 先定义一个网域的前面部分！ 
for sitenu in $（seq 1 100） # seq 为 sequence（连续） 的缩写之意 
do 
    # 下面的程序在取得 ping 的回传值是正确的还是失败的！ 
        ping -c 1 -w 1 ${network}.${sitenu} &&gt; /dev/null && result=0 &#124;&#124; result=1 
    # 开始显示结果是正确的启动 （UP） 还是错误的没有连通 （DOWN） 
        if [ "${result}" == 0 ]; then 
            echo "Server ${network}.${sitenu} is UP." 
        else 
            echo "Server ${network}.${sitenu} is DOWN." 
        fi 
done

$ vim dir_perm.sh 
#!/bin/bash 
# Program: 
# User input dir name, I find the permission of files. 
# History: 
# 2015/07/17 VBird First release PATH=/bin:/sbin:/usr/bin:/usr/sbin:/usr/local/bin:/usr/local/sbin:~/bin 
export PATH 

# 1\. 先看看这个目录是否存在啊？ 
read -p "Please input a directory: " dir 
if [ "${dir}" == "" -o ! -d "${dir}" ]; then 
    echo "The ${dir} is NOT exist in your system." 
    exit 1 
fi

# 2\. 开始测试文件啰～ 
filelist=$（ls ${dir}） # 列出所有在该目录下的文件名称 
for filename in ${filelist} 
do 
    perm="" 
    test -r "${dir}/${filename}" && perm="${perm} readable" 
    test -w "${dir}/${filename}" && perm="${perm} writable" 
    test -x "${dir}/${filename}" && perm="${perm} executable" 
    echo "The file ${dir}/${filename}'s permission is ${perm} " 
done

for...do...done 的数值处理

for （（ 初始值; 限制值; 执行步阶 ））
do
    程序段
done

初始值：某个变量在循环当中的起始值，直接以类似 i=1 设置好；

限制值：当变量的值在这个限制值的范围内，就继续进行循环。例如 i<=100 ；

执行步阶：每作一次循环时，变量的变化量。例如 i=i+1 。

$ vim cal_1_100-2.sh 
#!/bin/bash 
# Program: 
# Try do calculate 1+2+....+${your_input} 
# History: 
# 2015/07/17 VBird First release PATH=/bin:/sbin:/usr/bin:/usr/sbin:/usr/local/bin:/usr/local/sbin:~/bin 
export PATH 

read -p "Please input a number, I will count for 1+2+...+your_input: " nu 
s=0 
for （（ i=1; i&lt;=${nu}; i=i+1 ）） 
do 
    s=$（（${s}+${i}）） 
done 
echo "The result of '1+2+3+...+${nu}' is ==&gt; ${s}"

5、shell script 的追踪与 debug ：

$ sh [-nvx] scripts.sh 
选项与参数： 
-n ：不要执行 script，仅查询语法的问题； 
-v ：再执行 sccript 前，先将 scripts 的内容输出到屏幕上； 
-x ：将使用到的 script 内容显示到屏幕上，这是很有用的参数！ 

范例一：测试 dir_perm.sh 有无语法的问题？ 
$ sh -n dir_perm.sh 
# 若语法没有问题，则不会显示任何信息！ 

范例二：将 show_animal.sh 的执行过程全部列出来～ 
$ sh -x show_animal.sh 
+ PATH=/bin:/sbin:/usr/bin:/usr/sbin:/usr/local/bin:/usr/local/sbin:/root/bin 
+ export PATH + for animal in dog cat elephant 
+ echo 'There are dogs.... ' There are dogs.... 
+ for animal in dog cat elephant 
+ echo 'There are cats.... ' There are cats.... 
+ for animal in dog cat elephant 
+ echo 'There are elephants.... ' 
There are elephants....

二、高并发架构：

1、高并发的概念：

1）高并发（High Concurrency）是互联网分布式系统架构设计中必须考虑的因素之一，通常是指，通过设计保证系统能够同时并行处理很多请求。

2）高并发相关常用的一些指标有响应时间（Response Time），吞吐量（Throughput），每秒查询率 QPS（Query Per Second），并发用户数等。

3）响应时间：系统对请求做出响应的时间。例如系统处理一个 HTTP 请求需要 200ms，这个 200ms 就是系统的响应时间。

4）吞吐量：单位时间内处理的请求数量。

5）QPS：每秒响应请求数。在互联网领域，这个指标和吞吐量区分的没有这么明显。

6）并发用户数：同时承载正常使用系统功能的用户数量。eg：一个即时通讯系统，同时在线量一定程度上代表了系统的并发用户数。

2、提升系统的并发能力：

互联网分布式架构设计，提高系统并发能力的方式，方法论上主要有两种：垂直扩展（Scale Up）与水平扩展（Scale Out）

垂直扩展：提升单机处理能力。垂直扩展的方式又有两种：

1）增强单机硬件性能，例如：增加 CPU 核数如 32 核，升级更好的网卡如万兆，升级更好的硬盘如 SSD，扩充硬盘容量如 2T，扩充系统内存如 128G；

2）提升单机架构性能，eg：使用 Cache 来减少 IO 次数，使用异步来增加单服务吞吐量，使用无锁数据结构来减少响应时间；在互联网业务发展非常迅猛的早期，如果预算不是问题，强烈建议使用 “ 增强单机硬件性能 ” 的方式提升系统并发能力，因为这个阶段，公司的战略往往是发展业务抢时间，而 “ 增强单机硬件性能 ” 往往是最快的方法。不管是提升单机硬件性能，还是提升单机架构性能，都有一个致命的不足：单机性能总是有极限的。所以互联网分布式架构设计高并发终极解决方案还是水平扩展。

水平扩展：只要增加服务器数量，就能线性扩充系统性能。水平扩展对系统架构设计是有要求的，如何在架构各层进行可水平扩展的设计，以及互联网公司架构各层常见的水平扩展实践，是本文重点讨论的内容。

3、常见的互联网分层架构：

（1）客户端层：典型调用方是浏览器 browser 或者手机应用 APP

（2）反向代理层：系统入口，反向代理

（3）站点应用层：实现核心应用逻辑，返回 html 或者 json

（4）服务层：如果实现了服务化，就有这一层

（5）数据-缓存层：缓存加速访问存储

（6）数据-数据库层：数据库固化数据存储整个系统各层次的水平扩展

4、分层水平扩展架构：

4.1 反向代理层的水平扩展

反向代理层的水平扩展，是通过 “ DNS 轮询 ” 实现的：dns-server 对于一个域名配置了多个解析 ip，每次 DNS 解析请求来访问 dns-server，会轮询返回这些 ip。当 nginx 成为瓶颈的时候，只要增加服务器数量，新增 nginx 服务的部署，增加一个外网 ip，就能扩展反向代理层的性能，做到理论上的无限高并发。

4.2 站点层的水平扩展

站点层的水平扩展，是通过 “ nginx ” 实现的。通过修改nginx.conf，可以设置多个 web后端。当 web后端成为瓶颈的时候，只要增加服务器数量，新增 web服务的部署，在 nginx配置中配置上新的 web后端，就能扩展站点层的性能，做到理论上的无限高并发。

4.3 服务层的水平扩展

服务层的水平扩展，是通过“服务连接池”实现的。站点层通过 RPC-client 调用下游的服务层 RPC-server 时，RPC-client 中的连接池会建立与下游服务多个连接，当服务成为瓶颈的时候，只要增加服务器数量，新增服务部署，在 RPC-client 处建立新的下游服务连接，就能扩展服务层性能，做到理论上的无限高并发。如果需要优雅的进行服务层自动扩容，这里可能需要配置中心里服务自动发现功能的支持。

4.4 数据层的水平扩展

在数据量很大的情况下，数据层（缓存，数据库）涉及数据的水平扩展，将原本存储在一台服务器上的数据（缓存，数据库）水平拆分到不同服务器上去，以达到扩充系统性能的目的。互联网数据层常见的水平拆分方式有这么几种，以数据库为例：

4.4.1 按照范围水平拆分

        每一个数据服务，存储一定范围的数据，

        user0 库，存储 uid 范围 1-1kw

        user1 库，存储 uid 范围 1kw-2kw

        这个方案的好处是：

        （1）规则简单，service 只需判断一下 uid 范围就能路由到对应的存储服务；

        （2）数据均衡性较好；

        （3）比较容易扩展，可以随时加一个 uid[2kw,3kw]的数据服务；

        这个方案的不足是：

        （1）请求的负载不一定均衡，一般来说，新注册的用户会比老用户更活跃，大 range 的服务请求压力会更大；

4.4.2 按照哈希水平拆分

        每一个数据库，存储某个 key 值 hash 后的部分数据，

        user0 库，存储偶数 uid 数据

        user1 库，存储奇数 uid 数据

        这个方案的好处是：

        （1）规则简单，service 只需对 uid 进行hash 能路由到对应的存储服务；

        （2）数据均衡性较好；

        （3）请求均匀性较好；

这个方案的不足是：

        （1）不容易扩展，扩展一个数据服务，hash 方法改变时候，可能需要进行数据迁移；

这里需要注意的是，通过水平拆分来扩充系统性能，与主从同步读写分离来扩充数据库性能的方式有本质的不同。通过水平拆分扩展数据库性能：

（1）每个服务器上存储的数据量是总量的 1/n，所以单机的性能也会有提升；

（2）n 个服务器上的数据没有交集，那个服务器上数据的并集是数据的全集；

（3）数据水平拆分到了 n 个服务器上，理论上读性能扩充了 n 倍，写性能也扩充了 n 倍（其实远不止 n 倍，因为单机的数据量变为了原来的 1/n）；

通过主从同步读写分离扩展数据库性能：

（1）每个服务器上存储的数据量是和总量相同；

（2）n 个服务器上的数据都一样，都是全集；

（3）理论上读性能扩充了 n 倍，写仍然是单点，写性能不变；缓存层的水平拆分和数据库层的水平拆分类似，也是以范围拆分和哈希拆分的方式居多，就不再展开。

5、总结

高并发（High Concurrency）是互联网分布式系统架构设计中必须考虑的因素之一，它通常是指，通过设计保证系统能够同时并行处理很多请求。提高系统并发能力的方式，方法论上主要有两种：垂直扩展（Scale Up）与水平扩展（Scale Out）。前者垂直扩展可以通过提升单机硬件性能，或者提升单机架构性能，来提高并发性，但单机性能总是有极限的，互联网分布式架构设计高并发终极解决方案还是后者：水平扩展。互联网分层架构中，各层次水平扩展的实践又有所不同：

（1）反向代理层可以通过“DNS 轮询”的方式来进行水平扩展；

（2）站点层可以通过 nginx 来进行水平扩展；

（3）服务层可以通过服务连接池来进行水平扩展；

（4）数据库可以按照数据范围，或者数据哈希的方式来进行水平扩展；各层实施水平扩展后，能够通过增加服务器数量的方式来提升系统的性能，做到理论上的性能无限。

三、Lucene：

四、solr：

Hadoop

Hadoop、HDFS、Mapreduce、yarn、hive、hbase、sqoop、zookeeper、flume

一、Hadoop、HDFS、Mapreduce、Yarn：

二、Hive：

三、HBase：

四、Sqoop：

五、Zookeeper：

六、Flume：

Storm

Storm、kafka、redis

一、Storm：

二、Kafka：

三、Redis：

Spark

Scala、Spark、Sark Core、SparkSQL、Spark Streaming、Spark Mllib、Spark Graphx

一、Scala

二、Spark

Spark Core：核心组件，分布式计算引擎

Spark SQL：高性能的基于Hadoop的SQL解决方案

Spark Streaming：可以实现高吞吐量、具备容错机制的准实时流处理系统

Spark MLlib：构建在Spark上的分布式机器学习库

Spark GraphX：分布式图处理框架

1、Sark Core：

2、SparkSQL：

3、Spark Streaming：

4、Spark Mllib：

5、Spark Graphx：