Spark的笔记04

1.Spark Submit提交任务启动Driver

​ Driver启动 -注册application-申请资源

2.Driver启动注册Application申请资源

3.Master划分资源 – 资源调度

​ 1.Execute在集群中是分散启动的,利于数据处理的本地化

​ 2.如果提交任务什么都不指定,集群中每台Worker为当前的application 启动一个Executor,这个Executor会使用当前节点所有core和1G内存

​ 3.如果想要在一台Worker上启动多个Executor,要指定 -executor-cores

​ 4.提交任务指定 -total-executor-cores 会为当前application申请指定core个数的资源

​ 5.启动Executor不仅和core有关,还和内存有关 --executor-memory

4.任务调度

​ -docheckpoint

5.scala和java 二次排序和分组取topN

二次排序

  • spark中大于2列的排序全部称为二次排序
package com.zmd.testSpark

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}


/**
  * scala实现二次排序
  *
  */
case class SecondSortkey(val first:Int,val second:Int) extends Ordered[SecondSortkey]{
   def compare(that: SecondSortkey): Int = {
    if (this.first-that.first==0)
      this.second- that.second
     else
      this.first-that.first

  }
}

object SecondSort {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf();
    conf.setMaster("local");
    conf.setAppName("test");
    val sc = new SparkContext(conf);
    val lines = sc.textFile("./data/test")
    val trandsRDD: RDD[(SecondSortkey, String)] = lines.map(s=>{(SecondSortkey(s.split(" ")(1).toInt,s.split(" ")(1).toInt),s)})
    trandsRDD.sortByKey(false).map(_._2).foreach(println)

  }

}
---------------------------------SecondarySortTest-----------------------------------
package com.zmd.testJava.day04;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.api.java.function.VoidFunction;
import scala.Tuple2;

public class SecondarySortTest {
	/**
 	 * java实现二次排序
	 *
	 */
    public static void main(String[] args) {
        SparkConf conf = new SparkConf();
        conf.setMaster("local");
        conf.setAppName("SecondarySortTest");
        JavaSparkContext sc = new JavaSparkContext(conf);
        JavaRDD<String> secondRdd = sc.textFile("./data/test");
        JavaPairRDD<SecondSortkeyjava, String> pairSecondRDD = secondRdd.mapToPair(new PairFunction<String, SecondSortkeyjava, String>() {

            private static final long serialverionUID = 1L;

            @Override
            public Tuple2<SecondSortkeyjava, String> call(String line) throws Exception {
                String[] splited = line.split(" ");
                int first = Integer.valueOf(splited[0]);
                int second = Integer.valueOf(splited[1]);
                SecondSortkeyjava secondSortkeyjava = new SecondSortkeyjava(first, second);

                return new Tuple2<SecondSortkeyjava, String>(secondSortkeyjava, line);
            }
        });

        pairSecondRDD.sortByKey(false).foreach(new VoidFunction<Tuple2<SecondSortkeyjava, String>>() {

            private static final long serialverionUID = 1L;

            @Override
            public void call(Tuple2<SecondSortkeyjava, String> tuple) throws Exception {
                System.out.println(tuple._2);
            }
        });



    }
}

-----------------------------------SecondSortkeyjava-------------------------------

package com.zmd.testJava.day04;

import java.io.Serializable;

public class SecondSortkeyjava implements Serializable,Comparable<SecondSortkeyjava> {
    private static final long serialVersionUID = 1L;
    private  int first;
    private int second;

    public int getFirst() {
        return first;
    }

    public void setFirst(int first) {
        this.first = first;
    }

    public int getSecond() {
        return second;
    }

    public void setSecond(int second) {
        this.second = second;
    }

    public SecondSortkeyjava(int first, int second) {
        this.first = first;
        this.second = second;
    }

    @Override
    public int compareTo(SecondSortkeyjava o1) {
        if (getFirst() -o1.getFirst() == 0){
            return getSecond() - o1.getSecond();
        }else{
            return getFirst() - o1.getFirst();
        }

    }
}

分组取topN:

package com.zmd.testJava.day04;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.api.java.function.VoidFunction;
import scala.Tuple2;
import java.util.ArrayList;
import java.util.Iterator;

public class SparkDay04 {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf();
        conf.setMaster("local");
        conf.setAppName("test");
        JavaSparkContext sc = new JavaSparkContext(conf);
        JavaRDD<String> lines = sc.textFile("./data/scores.txt");

        JavaPairRDD<String, Integer> pairRDD = lines.mapToPair(new PairFunction<String, String, Integer>() {
            @Override
            public Tuple2<String, Integer> call(String line) throws Exception {

                return new Tuple2<String, Integer>(line.split("\t")[0], Integer.valueOf(line.split("\t")[1]));
            }
        });

        pairRDD.groupByKey().foreach(new VoidFunction<Tuple2<String, Iterable<Integer>>>() {
            @Override
            public void call(Tuple2<String, Iterable<Integer>> tuple) throws Exception {

                String className = tuple._1;
                Iterator<Integer> iter = tuple._2.iterator();
                ArrayList<Integer> list = new ArrayList<>();
//                while (iter.hasNext()){
//                    list.add(iter.next());
//                }
//
//                Collections.sort(list);
//                for(Integer i : list){
//                    System.out.println("className = "+className+",value"+i);
//                }
                Integer[] top3 = new Integer[3];
                while (iter.hasNext()){
                    Integer currentOne = iter.next();
                    for (int i = 0;i<3;i++){
                        if(top3[i]==null){
                            top3[i] = currentOne;
                            break;
                        }else if(currentOne>top3[i]){
                            for (int j=2;j>i;j--){
                                top3[j] = top3[j-1];
                            }
                            top3[i] = currentOne;
                            break;
                        }
                    }
                }

                for (Integer i : top3){
                    System.out.println("className = "+className+",value"+i);
                }


            }
        });

    }
}
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
蛋白质是生物体中普遍存在的一类重要生物大分子,由天然氨基酸通过肽键连接而成。它具有复杂的分子结构和特定的生物功能,是表达生物遗传性状的一类主要物质。 蛋白质的结构可分为四级:一级结构是组成蛋白质多肽链的线性氨基酸序列;二级结构是依靠不同氨基酸之间的C=O和N-H基团间的氢键形成的稳定结构,主要为α螺旋和β折叠;三级结构是通过多个二级结构元素在三维空间的排列所形成的一个蛋白质分子的三维结构;四级结构用于描述由不同多肽链(亚基)间相互作用形成具有功能的蛋白质复合物分子。 蛋白质在生物体内具有多种功能,包括提供能量、维持电解质平衡、信息交流、构成人的身体以及免疫等。例如,蛋白质分解可以为人体提供能量,每克蛋白质能产生4千卡的热能;血液里的蛋白质能帮助维持体内的酸碱平衡和血液的渗透压;蛋白质是组成人体器官组织的重要物质,可以修复受损的器官功能,以及维持细胞的生长和更新;蛋白质也是构成多种生理活性的物质,如免疫球蛋白,具有维持机体正常免疫功能的作用。 蛋白质的合成是指生物按照从脱氧核糖核酸(DNA)转录得到的信使核糖核酸(mRNA)上的遗传信息合成蛋白质的过程。这个过程包括氨基酸的活化、多肽链合成的起始、肽链的延长、肽链的终止和释放以及蛋白质合成后的加工修饰等步骤。 蛋白质降解是指食物中的蛋白质经过蛋白质降解酶的作用降解为多肽和氨基酸然后被人体吸收的过程。这个过程在细胞的生理活动中发挥着极其重要的作用,例如将蛋白质降解后成为小分子的氨基酸,并被循环利用;处理错误折叠的蛋白质以及多余组分,使之降解,以防机体产生错误应答。 总的来说,蛋白质是生物体内不可或缺的一类重要物质,对于维持生物体的正常生理功能具有至关重要的作用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值