懒癌牙套妹-CSDN博客

原创 Python REST APIs With Flask, Connexion, and SQLAlchemy

more detail ref to original代码结构= status== css=== home.css==js=== home.jss= templates== home.htmlpeople.pyserver.pyswagger.yml

2021-06-25 14:16:10 139

原创 R的基本操作

c–创建向量&amp;gt; x&amp;lt;-c(1,2,3)&amp;gt; x[1] 1 2 3seq–生成序列#生成2-10之间的整数序列&amp;gt; data&amp;lt;-seq(2,10);data[1] 2 3 4 5 6 7 8 9 10#生成2-10之间，步长为2的整数序列&amp;gt; data&amp;lt;-seq(2,10

2019-01-01 15:40:29 1368

原创 shell学习小Demo

文件操作命令wc#!/bin/bashecho 显示行数wc -l demo01.shecho 显示文件中最长行的长度wc -L demo01.shecho 显示Bytes数wc -c demo01.sh显示行数7 demo01.sh显示文件中最长行的长度27 demo01.sh显示Bytes数137 demo01.sh位置参数#!/bin/bashecho ...

2018-12-26 09:27:11 217

原创 python学习小Demo

练习一：拆数字游戏#coding=utf-8import randomgame_count=0all_counts=[]while True: game_count+=1 guess_count =0 answer=random.randint(0,99) while True: guess=int(input("猜个数字（0-99）：...

2018-12-25 20:05:43 6724

原创 SQL练习题，50道

原始数据学生表 Studentcreate table Student(S# varchar(10),Sname nvarchar(10),Sage datetime,Ssex nvarchar(10))insert into Student values(‘01’ , N’赵雷’ , ‘1990-01-01’ , N’男’)insert into Student values(‘02’...

2018-12-25 15:59:05 1151

原创额定内存进行资源分配

40亿个非负整数中找到没出现的数，限额1GB题目剖析1、数据理解：整数，1个整数占4个B，即32bit，40亿个整数，占40亿*4B，即16GB40亿，如果用二级制推算，最接近2^32=4,294,967,296（42.9亿），即32bit，占4个B2、最坏情况：40亿个数都不相同，需要输出4B*40亿=160亿B=16G解题重点：1、找出未出现过的数时，不可以直接将数字存储并输出，...

2018-12-23 01:15:26 363

原创 Spark 算法练习两则

练习一：求最大最小值在文件中获取数据求浮点数和整数的最大值和最小值1,2.33,4,1.55,2.56,55,55,55,23.77,1.88987,0.3324,22.567,5.5567,7.8895,33import org.apache.spark.{SparkConf, SparkContext}object demo01 { def main(args: Arra...

2018-12-21 19:51:22 578

原创分布式消息队列Kafka

概述 Kafka是Apache旗下，由LinkedIn公司开发，Scala语言编写的消息队列。Kafka是一种分布式的，基于发布/订阅的消息系统，能够高效并实时的吞吐数据，以及通过分布式集群及数据复制冗余机制（副本冗余机制）实现数据的安全。特点1 高吞吐量 Kafka 每秒可以生产约 25 万消息（50 MB），每秒处理 55 万消息（110 MB）2 持久化数据存储可进行持久...

2018-12-06 20:47:24 704

概述HBase概述 HBase是一个分布式的、面向列的开源数据库，该技术来源于Fay Chang 所撰写的Google论文《Bigtable》一个结构化数据的分布式存储系统&quot;。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力（低延迟的数据查询能力）。HBase是Apache的Ha...

2018-11-29 20:46:19 601

原创 Storm初级-概述、并发控制基础

概述 Storm是一个分布式的实时计算框架，具有可扩展，容错等特性。可以应用于实时计算，在线机器学习等领域。 Strom的处理速度最快可以到达毫秒级别，QPS(Query Per Second) 达到9-10万，而JStorm QPS达到11-12万，另外还有Spark Streaming。优势：处理速度快：QPS 9-10万，每个节点每秒可以处理100万个数据元组细粒度处理：可以...

2018-11-27 21:02:48 298

原创 Hive离线数据仓库

Hive是基于Hadoop的数据仓库工具，提供了一系列的工具，可以用来进行数据提取、转化、加载，是一种可以存储、查询和分析存储在Hadoop中的大规模数据机制。它可以将结构化的数据文件映射成一张表，并提供完成的sql查询功能，可以将sql语句转换成MapReduce任务进行运行。Hive本质上是基于Hadoop的一种分布式计算框架，底层仍然是MR，本质上是离线大数据分析工具。数据仓库 VS ...

2018-11-22 20:51:18 4551

原创 Flume中阶应用——启动命令详解、组件范例说明、事务说明

flume启动命令详解Usage: ./flume-ng &amp;lt;command&amp;gt; [options]...commands: help display this help text #显示帮助信息 agent run a Flume agent #启动flume代理 avro-clien...

2018-11-21 21:02:14 2887

原创 Hadoop 完全分布式规划

完全分布式功能：主要是使NN互为热备，解决NameNode单点故障问题– hadoop2.x中的standby NN只有一个，在hadoop3.x中可以有多个。信息共享问题通过JourneyNode集群实现元数据共享，活跃状态（Active）的NN通过元数据的更新发送给大部分的JN机器，只要保证JN集群大部分机器存活，StandBy状态的NameNode就可以获得数据。多个NameN...

2018-11-20 19:39:21 870

原创 Bash这个Shell，了解一下概念

BoumeAgain Shell(bash)，是一个Bourne Shell的增强版本，基准于GNU架构下发展出来。GNU是一个自由的操作系统，其内容软件完全以GPL方式发布。这个操作系统是GNU计划的主要目标，名称来自GNU’s Not Unix!的递归缩写，因为GNU的设计类似Unix，但它不包含具著作权的Unix代码。GNU的创始人，理查德·马修·斯托曼，将GNU视为“达成社会目的技术方...

2018-11-19 09:18:58 772

原创图解Shuffle

MapReduce需要确保每个reducer的输入都是按键（key）排序的，而系统执行排序，将map输出作为输入传给reducer的过程就是shuffle。但是在某些描述上面，它只代表reduce任务获取map输出的这个部分。而shuffle是mapReduce的核心，主要工作是从Map结束阶段到Reduce阶段，可以分为Map端的Shuffle和Reduce端的Shuffle。1 Map...

2018-11-16 15:17:02 720

原创来啊~手写个链表啊~

2018-11-01 17:23:45 430

原创初遇Linux的FHS

FHS，全称Filesystem Hierachy Standard，目录配置标准主要目的是规范每个特定目录下应该要防止怎么样的数据FHS目录分类可分享的不可分享的可变的/usr(软件放置处) ; /opt(第三方软件)/etc(配置文件) ; /boot (开机相关文件)不可变的/var/mail(用户邮件信箱) ; /var/spool/news(新...

2018-11-01 00:07:58 308

原创 Hello~Flume！关于Flume的小分享

Apache官网对Flume的描述是这样子的：Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple and flexible architectur...

2018-10-26 00:29:14 1104

将懒惰进行到底