![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
学习笔记+小技巧
码基
码基
展开
-
mysql同步sqoop通用脚本
mysql同步sqoop通用脚本#!/bin/bash# 要同步的表名 db.tbltable_name=$1# 表所在数据库url host:porturl=$2#登录mysql的用户密码username=$3password=$4# 同步昨天的数据p_d=$(date -d "-1 days" +%Y-%m-%d)# 日志存放目录log="/tmp/chVmibiSUcyaqvWY/$p_d"# 数据同步base目录base="/batch_data_sync/原创 2021-04-09 12:05:38 · 418 阅读 · 0 评论 -
spark不输出info
–conf “spark.driver.extraJavaOptions=-Dlog4j.configuration=file:/tmp/test/log4j.properties”原创 2019-11-28 14:46:41 · 579 阅读 · 0 评论 -
Spark: The Definitive Guide:Chapter 15. How Spark Runs on a Cluster(Spark是如何在集群上运行的)
Spark权威指南:第15章 Spark是如何在集群上运行的Thus far in the book, we focused on Spark’s properties as a programming interface. We have discussed how the structured APIs take a logical operation, break it up into a...翻译 2019-07-01 22:52:26 · 305 阅读 · 0 评论 -
各种排序方法的代码及优缺点
结论:**数据量大的情况下,冒泡、插入和希尔排序都过于缓慢;冒泡基本不用,插入适合小数据量排序,希尔排序适合中等数据量排序****归并排序会有大量时间浪费在临时数组内存的操作上,降低了排序速度;而且为了存储临时数组,内存开销远远大于快速排序****HadoopQuickSort算法复杂,一般情况下速度略慢于QuickSort****但是HadoopQuickSort的最大优势在于处理有大量重复数据的情况,在第4次试验每个元素重复10次,HadoopQuickSort的排序速度就快原创 2019-05-30 14:40:17 · 490 阅读 · 0 评论 -
一个完整的SPC案例—从特性分析到CPK计算
这还是以前指导供应商做spc控制写的。。。1 小明接到的任务小明,就是那个小学数学很差,总是一边往池塘里注水一边还放水的沙雕,大学毕业后是一名苦逼机械工程师。一天,他接到了这样一个任务:顾客要求小明生产一个衬套,衬套内圈要和对手件过盈配合,并且满足1kN推出力要求,顾客提供对手件尺寸∅30p6(+0.035,+0.022)。装配件示意图如下,红色环形件为衬套,与对手件轴销成过盈配合:...原创 2019-06-28 21:15:25 · 30953 阅读 · 0 评论 -
HBase整理
Table有很多行组成。RowHBase的行由行键和一个或多个包含值列组成。行按照字典顺序排序。行键的设计原则是:相关的行存储位置应当尽量接近。如果使用域名作为行键,你可能需要把域名反过来存储,这样所有Apache的域名都会彼此相邻。Column由列族和列限定名组成,两者通过:冒号分隔。Column Family列族在物理上并置了一组列和值。每一个列族都有一系列存储特性可以设置,比如...翻译 2019-07-10 22:18:16 · 354 阅读 · 0 评论 -
hive 随机抽样 实用,有助于快速分析数据分布情况和可能的数据倾斜
Sampling Syntax 抽样语法Sampling Bucketized Table 分桶表抽样table_sample: TABLESAMPLE (BUCKET x OUT OF y [ON colname])The TABLESAMPLE clause allows the users to write queries for samples of the data instead...翻译 2019-07-06 10:13:58 · 1047 阅读 · 0 评论 -
为什么hbase不要使用递增的行键
转载https://ikaisays.com/2011/01/25/app-engine-datastore-tip-monotonically-increasing-values-are-bad/如果按照递增的顺序写入hbase,就会》》》》》》所以还是让数据的分配更随机一点好不要使用递增的行键...转载 2019-07-11 18:56:06 · 437 阅读 · 0 评论 -
使用apache log4j 的四个maven依赖
解决apache log4j cannot resolve的问题 <dependency> <groupId>commons-logging</groupId> <artifactId>commons-logging</artifactId> <versio...原创 2019-10-11 15:54:16 · 11991 阅读 · 0 评论 -
Spark的产生背景和基础知识 Spark: The Definitive Guide
学习笔记Apache Spark:一个集成的计算引擎,一组库,用于在计算机集群上并行处理数据。翻译 2019-07-14 13:57:10 · 555 阅读 · 0 评论 -
CentOS配置网络yum源
转载记录1)下载repo文件 wget http://mirrors.aliyun.com/repo/Centos-7.repo2)备份并替换系统的repo文件cp CentOS-7.repo /etc/yum.repos.d/cd /etc/yum.repos.d/mv CentOS-Base.repo CentOS-Base.repo.bakmv CentOS-7.repo Cen...转载 2019-06-05 14:21:10 · 556 阅读 · 0 评论 -
Spark导入各种类型外部数据 Spark cooker 第三章:外部数据源
翻译spark cookbook简介spark为大数据提供了一个统一的运行环境。Hadoop分布式文件系统HDFS作为Spark最常用的存储平台,使用普通硬件(廉价机)为非结构化数据或半结构化数据提供了低成本的存储。Spark并不局限于HDFS,可以用于任何Hadoop支持的存储。Hadoop支持的存储是指可以使用Hadoop InputFormat和OutputFormat接口的存储格式...翻译 2019-06-25 11:46:32 · 952 阅读 · 0 评论 -
python设计哲学
转载至博客园https://www.cnblogs.com/xuchunlin/p/6986247.htmlBeautiful is better than ugly. 优美胜于丑陋Explicit is better than implicit. 明了胜于晦涩Simple is better than complex. 简单胜过复杂Complex is better than compl...转载 2019-06-22 09:17:49 · 244 阅读 · 0 评论 -
MySQL的五十道练习题
MySQL的五十道练习题数据表介绍–1.学生表Student(SId,Sname,Sage,Ssex)–SId 学生编号,Sname 学生姓名,Sage 出生年月,Ssex 学生性别–2.课程表Course(CId,Cname,TId)–CId 课程编号,Cname 课程名称,TId 教师编号–3.教师表Teacher(TId,Tname)–TId 教师编号,Tname 教师姓...原创 2019-06-15 13:30:06 · 1732 阅读 · 0 评论 -
大数据maven依赖管理
学习笔记<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="htt...原创 2019-06-13 21:32:04 · 426 阅读 · 3 评论 -
不好记的hadoop操作指令
[hadoop@hadoop01 ~]$ hdfs haadmin -getServiceState nn1standby查看namenode所处状态原创 2019-06-10 16:19:06 · 108 阅读 · 0 评论 -
偶然遇到的问题:删除hadoop中带空格的目录
[hadoop@hadoop01 ~]$ hadoop fs -ls /19/06/10 09:14:19 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicableFound 5 itemsdrw...原创 2019-06-10 09:25:13 · 844 阅读 · 0 评论 -
Scala里trait的多继承
钻石结构scala的trait多继承package pers.machi.learningScalaobject Learning { def main(args:Array[String]): Unit ={ var s = new Son() s.act() }}class Person{ val name: String =...原创 2019-06-14 19:32:31 · 1268 阅读 · 0 评论 -
hadoop 每个节点上最大的容器数多少
学习笔记,来自百知道hadoop 每个节点上最大的容器数多少这个看你的yarn怎么设置了,容器数据与cpu核数和内存大小都有关系,比如说下面这个配置:yarn.nodemanager.resource.cpu-vcores16yarn.scheduler.minimum-allocation-vcores1yarn.nodemanager.resource.memory-mb300...转载 2019-06-13 15:15:41 · 979 阅读 · 0 评论