Tomorrow never comes

你可以不博学,但不能无知;你可以不交友,但不能孤僻;你可以不乐观,但不能厌世;你可以不慷慨,但不能损人;你可以不追求,但不能嫉妒;你可以不进取,但不能倒退。...

vuePreee 部署技术文档

mkdir api-doc cd api-doc npm install -D vuepress mkdir docs npx vuepress dev docs #生成 package.json npm init -y #添加编译脚本 vim package.json &quo...

2018-12-18 11:42:42

阅读数 41

评论数 0

Hadoop Yarn 框架原理及运作机制

1.1 YARN 基本架构YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个...

2018-04-25 16:25:29

阅读数 71

评论数 0

spark 基础操作

dataframespark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。主要对类SQL的支持。DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据块中的表,它与RDD最主要的区别在于:DataFrame有schema元数据,即DataFrame所表示的数据...

2018-04-13 11:07:16

阅读数 886

评论数 1

Spark性能优化指南

Spark性能优化指南——基础篇李雪蕤 ·2016-04-29 14:00前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。...

2018-04-11 12:52:09

阅读数 273

评论数 0

BloomFilter——大规模数据处理利器

Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。 一. 实例   为了说明Bloom Filter存在的重要意义,举一个实例:  假设要你写一个网络蜘蛛(web crawl...

2018-04-09 14:27:24

阅读数 275

评论数 0

使用git rebase合并多次commit

转自:https://blog.csdn.net/yangcs2009/article/details/471663611.首先使用git log查看一下提交历史[plain] view plain copy[demo@ubuntu1204:zh_cn(bugfix/ycs-MOS-1503-no...

2018-04-02 12:10:41

阅读数 591

评论数 0

hdfs详解

******HDFS基本概念篇******1. HDFS前言l 设计思想分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析; l 在大数据系统中作用:为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务 l ...

2018-03-27 11:51:53

阅读数 307

评论数 0

hadoop集群搭建

4. 集群搭建4.1 HADOOP集群搭建4.1.1集群简介HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起HDFS集群:负责海量数据的存储,集群中的角色主要有 NameNode / DataNodeYARN集群:负责海量数据运算时的资源调度,集群...

2018-03-27 11:38:36

阅读数 64

评论数 0

豆瓣爬虫:根据tag 爬书籍,实现urllib、BeautifulSoup、导出excel

豆瓣爬虫:根据tag 爬书籍,实现urllib、BeautifulSoup、导出excelimport time import urllib import urllib.parse import numpy as np from bs4 import BeautifulSoup import ra...

2018-03-26 17:59:55

阅读数 149

评论数 0

Java多线程增强+反射+代理

Ø java多线程增强1. java多线程基本知识1.1进程介绍 不管是我们开发的应用程序,还是我们运行的其他的应用程序,都需要先把程序安装在本地的硬盘上。然后找到这个程序的启动文件,启动程序的时候,其实是电脑把当前的这个程序加载到内存中,在内存中需要给当前的程序分配一段独立的运行空间。这片空间就...

2018-03-26 14:53:27

阅读数 198

评论数 0

redis 学习笔记

一、redis学习 01/ nosql介绍 NoSQL:一类新出现的数据库(not only sql),它的特点:1、 不支持SQL语法2、 存储结构跟传统关系型数据库中的那种关系表完全不同,nosql中存储的数据都是KV形式3、 NoSQL的世界中没有一种通用的语言,每种nosql数据库都有自己...

2018-03-26 12:14:08

阅读数 4104

评论数 3

shell编程

01/ linux操作增强1.1 防火墙配置防火墙根据配置文件/etc/sysconfig/iptables来控制本机的“出、入”网络访问行为其对行为的配置策略有四个策略表 1.1.1 必备技能查看防火墙状态 service iptables status关闭防火墙service iptables...

2018-03-22 10:50:28

阅读数 63

评论数 0

linux基础

3.2 Linux常用命令3.1.1 基本日常操作命令  1、查看当前所在的工作目录的全路径 pwd[test@hdp-node-01 ~]$ pwd/home/test 2、查看当前系统的时间 date[test@hdp-node-01 ~]$ date +%Y-%m-%d2016-05-18[...

2018-03-22 10:25:05

阅读数 93

评论数 1

scala lazy关键字

scala lazy 加载、 模式匹配case实例lazy 赖加载 Scala中使用关键字lazy来定义惰性变量,实现延迟加载(懒加载)。 惰性变量只能是不可变变量,并且只有在调用惰性变量时,才会去实例化这个变量。我们看一下spark源码中的这段代码 /** Default properties ...

2018-03-21 14:09:17

阅读数 74

评论数 0

python爬虫案例——东方财富股票数据采集

通过python爬取东方财富的股票信息。获取每只股票的:总市值 净资产 净利润 市盈率 市净率 毛利率 净利率 ROE东方财富网址:http://quote.eastmoney.com/stocklist.html先爬取股票汇总页面。 在进入每只股票的详情页,爬取每只股票的具体信息。需要安装Bea...

2018-03-21 10:54:08

阅读数 2401

评论数 2

Scrapy爬虫框架教程-- 抓取AJAX异步加载网页

Scrapy爬虫框架教程(一)– Scrapy入门Scrapy爬虫框架教程(二)– 爬取豆瓣电影TOP250Scrapy爬虫框架教程(三)– 调试(Debugging)Spiders前言前一段时间工作太忙一直没有时间继续更新这个教程,最近离职了趁着这段时间充裕赶紧多写点东西。之前我们已经简单了解了...

2018-03-19 16:56:10

阅读数 1153

评论数 0

Spark 源码阅读(6)——Master接收到ClientActor后,进行worker的资源分配

看一下appActor的preStart方法override def preStart() { context.system.eventStream.subscribe(self, classOf[RemotingLifecycleEvent]) try { registerWit...

2018-03-18 21:57:54

阅读数 266

评论数 0

Spark 源码阅读(5)——Spark-submit任务提交流程

任务提交后执行前的逻辑:client端:1、spark-submit脚本提交任务,会通过反射的方式调用到我们自己提交的类的main方法2、执行我们自己代码中的new SparkContext    2.1、创建actorSystem    2.2、创建TaskSchedulerImpl 任务分发的...

2018-03-18 11:26:36

阅读数 587

评论数 1

Scala 注解

1.@volatile实际上这个注解或是关键字,大多用于被并发访问的共享变量。在JVM内存模型中happens-before规则有一条就是volatile变量法则(有兴趣可以阅读Java并发编程实践 第16章Java内存模型),对于volatile变量,同一变量的写操作总是先于读操作。class ...

2018-03-17 11:18:03

阅读数 256

评论数 0

Scala 泛型

Scala在方法定义的时候可以指定泛型def startServiceOnPort[T]( startPort: Int, startService: Int => (T, Int), conf: SparkConf, serviceName:...

2018-03-17 11:04:21

阅读数 261

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭