自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(39)
  • 收藏
  • 关注

翻译 Hadoop 架构HDFS, Yarn & MapReduce

什么是Hadoop体系结构?Hadoop具有主从拓扑。 在这种拓扑中,我们有一个主节点和多个从节点。 主节点的功能是将任务分配给各个从节点并管理资源。 从节点进行实际计算。 从节点存储实际数据,而在主节点上,其存储元数据信息。Hadoop体系结构包括三个主要层:HDFS (Hadoop Distributed File System) Yarn MapReduce1、HDFSHDFS代表Hadoop分布式文件系统。 它提供了Hadoop的数据存储。 HDFS将数据单元分为称为块的较小单

2021-02-16 16:20:18 349

转载 MapReduce过程详解及其性能优化

废话不说直接来一张图如下:   从JVM的角度看Map和Reduce Map阶段包括: 第一读数据:从HDFS读取数据 1、问题:读取数据产生多少个Mapper??     Mapper数据过大的话,会产生大量的小文件,由于Mapper是基于虚拟机的,过多的Mapper创建和初始化及关闭虚拟机都会消耗大量的硬件资源;    &nb...

2020-09-21 10:01:40 427

原创 Flink 学习: DataStream Api 入门

一、数据源1、内置数据源基于文件 基于socket 基于collection2、自定义数据源实现SourceFuncition (非并行) 实现ParalleSourceFuncition 实现RichParalleSourceFuncition (如需打开/关闭数据源,打开/关闭连接)3、自定义数据源例子 public class SimpleSourceFunct...

2020-02-21 09:48:24 314

原创 Spark 读写Hbase

一、创建hbase表在hbase shell中使用下面命令创建test_table表:hbase> create 'test_table','info'hbase shell 链接指定集群hbase shell启动脚本自动使用 $HBASE_HOME 目录配置相同的目录,用户可以使用其它设置覆盖这个位置,连接到不同的集群新建一个包含hbase-site.xml 文...

2020-02-10 22:06:01 389

原创 Centos7安装Chrome浏览器 和ChromeDriver

一.创建yum源文件在目录 /etc/yum.repos.d/ 下新建文件 google-chrome.repocd /etc/yum.repos.d/vim google-chrome.repo二.输入yum源信息[google-chrome]name=google-chromebaseurl=http://dl.google.com/linux/chrome/rpm/...

2019-07-12 20:46:10 2270

原创 python 主线程捕获子线程异常的方法

from threading import Threadimport tracebackclass PropagatingThread(Thread): def run(self): self.exc = None try: if hasattr(self, '_Thread__target'): ...

2019-07-08 20:22:12 2944

转载 Hive 学习笔记(启动方式,内置服务)

一、Hive介绍  Hive是基于Hadoop的一个数据仓库,Hive能够将SQL语句转化为MapReduce任务进行运行。  Hive架构图分为以下四部分。     1、用户接口    Hive有三个用户接口:命令行接口(CLI):以命令行的形式输入SQL语句进行数据数据操作Web界面:通过Web方式进行访问。     Hive的远程服务方式:通过JDBC等方式进...

2019-06-17 20:02:27 191

转载 HIVE获取时间函数, regexp_extract正则提取用法

Hive获取时间函数regexp_replace(date_add(from_unixtime(unix_timestamp(), "yyyy-MM-dd") , -1), '-','')regexp_extract函数:regexp_extract( str, regexp[, idx] ) - extracts a group that matches regexp字符...

2019-06-16 16:18:06 5196

转载 HIVE lateral view语句

原文地址:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+LateralView#lateral view用于和split, explode等UDTF一起使用,它能够将一列数据拆成多行数据,在...

2019-06-16 16:15:50 256

转载 Hadoop Streaming自带参数解析

排序、hash分组、压缩格式、内存设定-Option:-input:输入文件路径 -output:输出文件路径 -mapper:用户自己写的mapper程序,可以是可执行文件或者脚本 -reducer:用户自己写的reducer程序,可以是可执行文件或者脚本 -file:打包文件到提交的作业中,可以是mapper或者reducer要用的输入文件,如配置文件,字典等,将客户端本地文件打...

2019-03-13 14:51:16 1477

原创 linux 实用指令

关键词提取与统计词频cat file| awk -F”\001”'{print $2}' | awk -F”\002”'{print $1}'| sort| uniq -c |sort -rn对文件中的某一列求和cat file|awk '{print $1}' | awk '{sum+=$1} END{print sum}'(对第一列求和)求文件夹下所有文件的行数总...

2019-03-09 11:27:30 95

转载 linux 下 `dirname $0`

【`】,学名叫“倒引号”, 如果被“倒引号”括起来,  表示里面需要执行的是命令。比如 `dirname $0`,  就表示需要执行   dirname $0  这个命令【“”】 , 被双引号括起来的内容, 里面 出现  $ (美元号: 表示取变量名)  `(倒引号: 表示执行命令)   \(转义号: 表示转义),   其余的才表示字符串。【’‘】,  被单引号括起来的内容, 里面所有的都表...

2019-02-21 22:47:40 262

转载 gcc中的 -I -L(大写l) -l(小写l) -Wl,-rpath 选项

gcc编译程序时,可能会用到“-I”(大写i),“-L”(大写l),“-l”(小写l)等参数,下面做个记录:例子1:gcc -o example1 example1.c  -I /usr/local/include/freetype2 -lfreetype -lm上面这句话在编译example1.c 时,-I /usr/local/include/freetype2 表示将/usr...

2018-12-31 11:45:21 1386

原创 正则表达式替换掉汉字中间的空格

替换掉汉字中间的空格 import re original_str = 'a a 我我我 我我 我 我 sf ssf' patten = re.compile(r'([\w\u4e00-\u9fa5]{1})\s+([\u4e00-\u9fa5]{1})')original_str = patten.sub(r'\1\2',original_str ).strip(...

2018-12-20 16:20:55 7533

转载 c++11 智能指针 unique_ptr、shared_ptr与weak_ptr

原文地址:https://www.cnblogs.com/lsgxeva/p/7788061.htmlC++11中有unique_ptr、shared_ptr与weak_ptr等智能指针(smart pointer),定义在<memory>中。可以对动态资源进行管理,保证任何情况下,已构造的对象最终会销毁,即它的析构函数最终会被调用。 unique_ptruniqu...

2018-12-02 14:54:40 118

转载 动态规划求最小编辑距离

 //求最小编辑距离 int editDistance(const string source, const string target){ //step 1 int len_source = source.length(); int len_target = target.length(); if (len_source ...

2018-12-02 10:00:37 238

转载 C++去掉字符串中首尾空格和所有空格

//去掉首尾空格void trim(string &s) { if( !s.empty() ) { s.erase(0,s.find_first_not_of(" ")); s.erase(s.find_last_not_of(" ") + 1); } }//去掉所有空格void trim(stri...

2018-12-02 09:52:40 3727 1

转载 C++ char*,const char*,string的相互转换

1. string转const char*string s ="abc";const char* c_s = s.c_str();2. const char*转string   直接赋值即可const char* c_s ="abc";string s(c_s); 3. string转char*string s ="abc";char* c;constint len...

2018-12-02 09:49:45 909

转载 python正则过滤字母、数字及特殊字符

import res = '1123*#$ 中abc国'str = re.sub('[a-zA-Z0-9’!"#$%&\'()*+,-./:;<=>?@,。?★、…【】《》?“”‘’![\\]^_`{|}~\s]+', "", s)# 去除不可见字符str = re.sub('[\001\002\003\004\005\006\007\x08\x09\x0a\x0b...

2018-11-30 14:49:54 38484 3

转载 shell 监测文件夹文件内容是否改变

#! /bin/bash#定义验证文件目录FileDir='/home/test'#定义需要监测的文件夹CheckDir=(/home/test2/home/test3)#定义生成所需验证的文件样本日志的函数function OldFile(){        for i in ${CheckDir[@]}        do                echo $i...

2018-11-27 21:14:25 4584

原创 Hbase单机安装 及 Thrift-0.11.0在Centos7下安装、PHP 通过Thrift 操作HBASE

在单机模式下安装HBase一、安装JDK https://blog.csdn.net/y472360651/article/details/78751859二、从官网下在相应版本的安装包http://archive.apache.org/dist/hbase/  可选择 stable/  版的,这里选择的是hbase-1.4.8-bin.tar.gz  还有一个 hbase-1.4.8...

2018-11-24 16:40:19 568

转载 Jpgraph 使用说明

&lt;?phpinclude ("src/jpgraph.php");include("src/jpgraph_bar.php");include ("src/jpgraph_line.php");//设置显示的数据数组;$x_data = [1,2,3,4,5,6,7]$y_data = [1,2,3,4,5,6,7]//调用类库// 创建图表$graph ...

2018-11-24 15:15:37 2098

转载 InfluxDB学习笔记

参考文档如下: https://jasper-zhang1.gitbooks.io/influxdb/content/InfluxDB是一个用于存储和分析时间序列数据的开源数据库。主要特性有: 内置HTTP接口,使用方便数据可以打标记,查让查询可以很灵活类SQL的查询语句安装管理...

2018-10-31 09:10:00 5326

原创 HTML中在img使得src属性为php程序(可为JPgraph所产生的图像)

&lt;!DOCTYPE html&gt;&lt;html&gt;&lt;head&gt;&lt;meta charset="utf-8"&gt;&lt;title&gt;&lt;/title&gt;&lt;script type="text/javascript"&gt;function show(){ var date_time = d

2018-10-17 19:17:48 1049

转载 PHP生成日期序列

&lt;?php$d0 = '2010-04-20';$d1 = '2010-04-23'; $_time = range(strtotime($d0), strtotime($d1), 24*60*60);$_time = array_map(create_function('$v', 'return date("Y-m-d", $v);'), $_time);print_...

2018-10-17 19:04:06 1095

转载 linux shell 判断表达式

文章来源:http://zhidao.baidu.com/question/322131711.html文件比较运算符-e  filename  如果 filename存在,则为真  [ -e /var/log/syslog ]-d  filename  如果 filename为目录,则为真  [ -d /tmp/mydir ]-f  filename  如果 filename为常...

2018-10-15 14:23:19 222

原创 PHP读取本地目录里的文件并显示

&lt;?phpfunction printFile($filepath){ //substr(string,start,length)函数返回字符串的一部分;start规定在字符串的何处开始 ;length规定要返回的字符串长度。默认是直到字符串的结尾。 //strripos(string,find,start)查找 "php" 在字符串中最后一次出现的位置; find为规定要查...

2018-10-15 11:16:43 12398

转载 Python多进程

版权声明:拥抱开源,欢迎转载,转载请保留原文链接~ https://blog.csdn.net/u010429424/article/details/76147368 Python多进程1、在主进程中创建子进程python为我们提供了Process类,用于...

2018-10-12 19:28:43 124

转载 Python多线程小例子

版权声明:拥抱开源,欢迎转载,转载请保留原文链接~ https://blog.csdn.net/u010429424/article/details/76100149 Python多线程小例子1、在主线程中创建子线程 下面的代码一共创建了三个线程:主线...

2018-10-12 19:27:37 133

转载 Shell特殊字符

版权声明:感谢您对博文的关注!校招与社招,有需要内推腾讯的可以QQ(1589276509)or 微信(louislvlv)联系我哈,期待您的加入。 https://blog.csdn.net/K346K346/article/details/51819236 ...

2018-10-12 19:10:17 1476

转载 使用Python监视指定目录下文件变更

# -*- coding: utf-8 -*-# @Author: xiaodong# @Date: just hide# @Last Modified by: xiaodong# @Last Modified time: just hideimport osimport globimport jsonimport datetimefrom typing import...

2018-10-12 18:56:48 1289

转载 协方差矩阵

一、统计学的基本概念统计学里最基本的概念就是样本的均值、方差、标准差。首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述:均值:标准差:方差:均值描述的是样本集合的中间点,它告诉我们的信息是有限的,而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。以这两个集合为例,[0, 8, 12, 20]和[8, 9, 11, 12],

2017-06-22 15:31:30 375

转载 机器学习中的数学-强大的矩阵奇异值分解(SVD)及其应用

版权声明:    本文由LeftNotEasy发布于http://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html前言:    上一次写了关于PCA与LDA的文章,PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用奇异值分解去实现的。在上篇文章中便是基于特征值分解的一种解释。特征值

2017-06-09 18:03:51 234

原创 常用随机变量及其概率分布

一、常用的离散型随机变量及其概率分布1、(0-1)分布(伯努利分布(Bernoulli distribution)、两点分布)如果随机变量X 只可能取0与1两个值,其概率分布为:或写成则称随机变量X 服从(0-1)分布或两点分布.它的概率分布也可以写成2、二项分布在n重伯努利试验中,如果以X表示事件A 出现的次数,则X是一个离散型

2017-05-20 10:20:40 15158

转载 Softmax回归

Softmax回归Contents [hide]1 简介2 代价函数3 Softmax回归模型参数化的特点4 权重衰减5 Softmax回归与Logistic 回归的关系6 Softmax 回归 vs. k 个二元分类器7 中英文对照8 中文译者简介在本节中,我们介绍Softmax回归模型,该模型是

2017-05-19 19:46:11 325

转载 逻辑回归原理

虽然叫做“回归”,但是这个算法是用来解决分类问题的。回归与分类的区别在于:回归所预测的目标量的取值是连续的(例如房屋的价格);而分类所预测的目标变量的取值是离散的(例如判断邮件是否为垃圾邮件)。当然,为了便于理解,我们从二值分类(binary classification)开始,在这类分类问题中,y只能取0或1。更好的理解问题,先举个小例子:假如我们要制作一个垃圾邮件过滤系统,如果一封邮件是垃圾系

2017-05-19 14:59:14 916

转载 Matlab绘图-很详细,很全面

Matlab绘图强大的绘图功能是Matlab的特点之一,Matlab提供了一系列的绘图函数,用户不需要过多的考虑绘图的细节,只需要给出一些基本参数就能得到所需图形,这类函数称为高层绘图函数。此外,Matlab还提供了直接对图形句柄进行操作的低层绘图操作。这类操作将图形的每个图形元素(如坐标轴、曲线、文字等)看做一个独立的对象,系统给每个对象分配一个句柄,可以通过句柄对该图形元素进行操作,而不影响其他部分。

2017-02-25 10:55:44 871

转载 MATLAB常用日期和时间函数

1.生成指定格式日期和时间datestr-生成指定格式日期和时间,是字符型变量。 >> datestr(now) %其中now是获取当前日期和时间 ans = 30-Dec-2009 16:05:16 其中输出格式可由用户指定,共有31种格式,以下是第26种格式,其它格式见下表。 >> datestr(now,26) ans = 2009/12/30

2017-02-25 10:47:15 1155

转载 Matlab三种数组间的转换

三种数组是:数值型矩阵,字符数组(或字符串),单元数组(也有叫元胞数组)1、数值型矩阵转换为字符数组(num2str、mat2str)

2017-02-25 10:31:12 11106

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除