Yang838020787-CSDN博客

原创 Debian系统安装中文字体

1.查看debian的发行版本信息cat /etc/os-release2.更换apt-get的源：修改源配置：vim /etc/apt/sources.list根据debian的版本在配置中加入合适的阿里源（也可选择其他源）：deb http://mirrors.ustc.edu.cn/debian buster main contrib non-freedeb http://mirrors.ustc.edu.cn/debian buster-backports main

2021-06-23 08:35:52 12613 1

转载 scp或ssh登录时遇到Host key verification failed问题的解决方法

1.修改 /etc/ssh/ssh_config(用此方法时，一定要保证，两台机器之间是可信任的)添加如下两行代码StrictHostKeyChecking noUserKnownHostsFile /dev/null重启sshd服务service sshd restart或者/etc/init.d/sshd restart...

2020-03-23 16:57:04 736

转载 R树空间索引

R树在数据库等领域做出的功绩是非常显著的。它很好的解决了在高维空间搜索等问题。举个R树在现实领域中能够解决的例子吧：查找20英里以内所有的餐厅。如果没有R树你会怎么解决？一般情况下我们会把餐厅的坐标(x,y)分为两个字段存放在数据库中，一个字段记录经度，另一个字段记录纬度。这样的话我们就需要遍历所有的餐厅获取其位置信息，然后计算是否满足要求。如果一个地区有100家餐厅的话，我们就要进行100次位置...

2019-07-24 20:20:19 328

原创阿里云ECS部署elasticsearch7.1.0集群

1.本实验在三台阿里云ECS服务器上安装elasticsearch，首先要实现三台机器内网互通，参考：https://blog.csdn.net/weixin_38875344/article/details/89146937。实例名内网IP 外网IP node-1 master...

2019-07-08 20:34:02 1018 1

原创 spark学习：（七）spark提交模式

1 部署模式1.1 local[*]模式该模式被称为local[N]模式，是用单机的多个线程来模拟Spark分布式计算，直接运行在本地，便于调试，通常用来验证开发出来的应用程序逻辑上有没有问题。其中N代表可以使用N个线程，每个线程拥有一个core。如果不指定N，则默认是1个线程。local：只启动一个executor；local[K]：启动K个executor；local[*]...

2019-05-05 08:33:56 501

原创 spark学习：（六）RDD

RDD（弹性分布式数据集）RDD即弹性分布式数据集，有容错机制并可以被并行操作的元素集合，具有只读、可分区、容错、高效、无需物化、可以缓存、RDD依赖等特征。RDD只是数据集的抽象，分区内部并不会存储具体的数据。存储的只是具体数据的分区信息getPartitions，还有就是针对单个分区的读取方法compute。RDD的数据默认情况下存放在内存中，但是在内存资源不足时，spark会自动将RDD...

2019-04-30 15:51:38 275

原创 spark学习：（五）Spark的使用

参考：https://www.cnblogs.com/qingyunzong/p/8888080.html1 安装配置解压安装包并修改目录名： 1 [root@master opt]# tar -zxvf spark-2.3.1-bin-hadoop2.7.tgz 2 [root@master opt]# mv sp...

2019-04-15 14:13:25 613

原创 spark学习：（四）MapReduce使用

1 概述一个MapReduce作业（job）通常会把输入的数据集切分为若干独立的数据块，由map任务（task）以完全并行的方式处理它们。框架会对map的输出先进行排序，然后把结果输入给reduce任务。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控，以及重新执行已经失败的任务。MapReduce框架和HDFS是运行在一组相同的节点上的，也就是说，计算节点和存储节...

2019-02-25 15:21:57 1264

原创 spark学习：（三）eclipse下Hadoop配置

1 插件的安装与配置要求与Linux上安装的Hadoop版本一致。把下载好的Hadoop解压到本地目录。添加系统环境变量：新建变量名HADOOP_HOME，值为Hadoop的解压路径，如E:\hadoop-2.8.5。在path中添加：%HADOOP_HOME%\bin。把Windows-Hadoop插件解压得到的所有文件复制到hadoop-2.8.5的bin目录下。再把hadoo...

2019-02-03 10:55:47 303

原创 spark学习：（二）Hadoop安装

1 免密登录关闭防火墙，命令是：chkconfig iptables off（永久关闭防火墙）在每台虚拟机的/etc/hosts文件中添加以下内容：192.168.xxx.001 master192.168.xxx.002 slave1192.168.xxx.003 slave2检查这3个机器是否相互联通，命令为： ping -c 4 slave1...

2019-01-08 09:20:20 294

原创 spark学习：（一）虚拟机安装及软件要求

1 Linux虚拟机的安装参考：https://blog.csdn.net/ProgrammingWay/article/details/78237856采用的是VMWare，CentOS6.9。因为是在自己电脑上进行实验，故架设三台虚拟机，分别命名为master（192.168.xxx.001），slave1（192.168.xxx.002），slave2（192.168.xxx.003...

2019-01-04 10:25:25 1926