2020年08月_sun_0128

原创 PySpark架构及 Jupyter Notebook集成环境搭建

文章目录一.在Linux上安装Anaconda二.PySpark简介三.案例1.数据探索:统计寿命预期数据的整体数据信息2.Spark与Python第三方库混用3.使用PySpark通过图形进行数据探索一.在Linux上安装Anaconda下载Anacondahttps://www.anaconda.com/distribution/命令安装Anaconda,除了vscode选择no其他都选择yesbash Anaconda3-5.1.0-Linux-x86_64.sh#spark集成#安

2020-08-31 09:56:42 773

原创 Python数据爬取

文章目录数据爬取介绍1.数据采集2.常用数据爬取工具二.Scrapy爬虫框架1.安装配置Scrapy框架2.Debug爬虫工程3.Scrapy框架组成4.Scrapy返回爬取页面数据5.爬取动态网页6.网站反爬虫数据爬取介绍1.数据采集数据来源从网上爬取数据（crawling）从本地系统收集数据（scraping）:文件、数据库等网络数据采集模型2.常用数据爬取工具第三方库实现爬取Requests、lxml:灵活，简单PySpider爬虫框架提供WebUI界面编写及管理爬虫

2020-08-26 18:51:27 3338

原创 Python基础及函数

一.python函数1.内置函数内置函数无需导包即可使用的函数不同版本的Python内置函数可能略有不同之前已经接触过的内置函数type()、dir()、input()、print()、id()各版本内置函数和使用方法参考文档https://docs.python.org/zh-cn/3/library/functions.html2.自定义函数定义函数def func_name(参数列表)：函数体 [return/yield 函数返回值] Pytho

2020-08-25 16:12:19 301

原创 Python环境搭建及Python数据类型

下载Anaconda在官网上下载安装包https://www.anaconda.com/distribution/命令安装AnacondaAnaconda3-5.1.0-Windows-x86_64.exe配置环境变量配置代码提示运行Python自带Demo启动演示示例python –m turtledemo使用方法示例代码执行效果Python的工程结构Python工程结构模块（module）一个Python文件就是一个模块.py source code.pyc com

2020-08-24 18:30:54 777

原创使用python爬取豆瓣电影top250相关信息

# -*- coding = utf-8 -*-# @Time: 2020/08/22 16:04# @Author: sun_0128# @File: spider.py# @Software: PyCharmfrom bs4 import BeautifulSoup #网页解析获取数据import re #正则表达式,进行文字匹配import urllib.request,urllib.error#指定url 获取网页数据import xlwt #进行excel操作import

2020-08-22 22:48:58 534

原创大数据常见面试题之kafka

1

2020-08-21 17:06:13 736

原创基于Spark Streaming 的流数据处理和分析

一.流介绍1.流是什么数据流数据的流入数据的处理数据的流出随处可见的数据流电商网站、日志服务器、社交网络和交通监控产生的大量实时数据流处理是一种允许用户在接收到的数据后的短时间内快速查询连续数据流和检测条件的技术2.为什么需要流处理它能够更快地提供洞察力，通常在毫秒到秒之间大部分数据的产生过程都是一个永无止境的事件流要进行批处理，需要存储它，在某个时间停止数据收集，并处理数据流处理适合时间序列数据和检测模式随时间推移3.流处理应用场景股市监控交通监控计算

2020-08-20 12:14:37 1840

原创 Kafka核心原理

为什么使用消息中间件异步调用同步变异步应用解耦/可扩展性提供基于数据的接口层流量削峰缓解瞬时高流量压力可恢复性顺序保障消息中间件工作模式点对点模式：一对一，消费者主动拉取数据发布订阅模式一对多，数据生产后，推送给所有订阅者消息中间件中的术语Broker：消息服务器，提供核心服务Producer：消息生产者Consumer：消息消费者Topic：主题，发布订阅模式下的消息统一汇集地Queue：队列，点对点模式下的消息队列Apache KafkaKafka是一种高吞吐量

2020-08-19 09:55:06 523

原创大数据常见面试题之flume

一.flume组成和事务flume组成为source channel sink 事务包含put事务 take事务常用的source channeltaildir source: 断点续传,多目录. flume1.6以前需要自己自定义source记录每次读取文件位置,实现断点续传file channel: 数据存储在磁盘,宕机数据可以保存.但是传输速率慢.适合对数据传输可靠性要求高的场景,比如金融行业memory channel: 数据存储在内存中,宕机数据丢失.传输速率快.适合对数据传输可靠性

2020-08-18 08:48:04 371

原创 Flume日志收集

文章目录一.Apache Flume简介二.Flume架构三.Source1.exec source2.spooling directory source3.http source4.avro source5.taildir source更多案例参考官方文档四.Channel五.Sink1.avro sink2.HDFS sink3.Hive sink六.多层代理(拓扑结构)七.Flume Sink组八.拦截器（Interceptors）一.Apache Flume简介Flume用于将多种来源的日志以流

2020-08-17 13:20:47 613 1

原创 spark sql 之 DSL风格练习mysql50题

Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 2.2.0 /_/Using Scala version 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_221)Type in expressions to ha.

2020-08-16 15:41:59 3229 1

原创 Spark数据分析及处理

用例1：数据清洗读入日志文件并转化为RDD[Row]类型按照Tab切割数据过滤掉字段数量少于8个的对数据进行清洗按照第一列和第二列对数据进行去重过滤掉状态码非200过滤掉event_time为空的数据将url按照”&”以及”=”切割保存数据将数据写入mysql表中日志拆分字段：event_timeurlmethodstatussipuser_uipaction_prependaction_client用例2：用户留存分析计算用户的次日留存率求当

2020-08-15 14:47:04 5178

原创大数据常见面试题之Spark Streaming

一.SparkStreaming有哪几种方式消费kafka中的数据,他们之间的区别是什么?1.基于Receiver的方式这种方式使用Receiver来获取数据.Receiver是使用kafka的高层次Consumer API来实现的.reveiver从kafka中获取的数据都是存储在spark executor的内存中的(如果突然数据暴增,大量batch堆积,很容易出现内存溢出的问题),然后spark streaming启动的job会去处理哪些数据然而,在默认的配置下,这种方式可能会因为底层的失败而

2020-08-13 20:03:23 2229

原创 Spark SQL精华及与Hive的集成

SQL on HadoopSQL是一种传统的用来进行数据分析的标准Hive是原始的SQL-on-Hadoop解决方案Impala：和Hive一样，提供了一种可以针对已有Hadoop数据编写SQL查询的方法Presto：类似于Impala，未被主要供应商支持Shark：Spark SQL的前身，设计目标是作为Hive的补充Phoenix：基于HBase的开源SQL查询引擎Spark SQL前身Shark的初衷：让Hive运行在Spark之上是对Hive的改造，继承了大量Hive代码，给优化和

2020-08-13 12:16:14 714

原创 spark sql练习

文章目录一、环境要求二、数据描述三、功能要求（要求使用分别使用 RDD 和 Spark SQL 两种方式实现）1、农产品市场个数统计2、农产品种类统计3、价格区间统计,计算山西省每种农产品的价格波动趋势，即计算每天价格均值，并将结果输出到控制台上一、环境要求Hadoop+Hive+Spark+HBase 开发环境。二、数据描述1、数据背景该数据每日进行采集汇总。数据范围涵盖全国主要省份（港澳台、西藏、海南暂无数据）的 180+的大型农产品批发市场，380+的农产品品类（由于季节性和地域性等特

2020-08-12 18:52:41 2584 1

原创大数据常见面试题之spark sql

一.创建DataSet的几种方式

2020-08-11 13:50:49 2416

原创 graphx项目实战 — 航班飞行网图分析

一.任务描述需求概述探索航班飞行网图数据构建航班飞行网图使用Spark GraphX完成下列任务统计航班飞行网图中机场的数量统计航班飞行网图中航线的数量计算最长的飞行航线（Point to Point）找出最繁忙的机场找出最重要的飞行航线（PageRank）找出最便宜的飞行航线（SSSP）二.具体分析问题分析1：数据探索下载数据链接: https://pan.baidu.com/s/1fubnDM_sggw_MWS9iI1AoQ 提取码: xnxv数据格式:文件格式为CSV

2020-08-11 09:35:49 4514 2

原创基于Spark GraphX 的图形数据分析

为什么需要图计算许多大数据以大规模图或网络的形式呈现许多非图结构的大数据，常会被转换为图模型进行分析图数据结构很好地表达了数据之间的关联性图（Graph）的基本概念图是由顶点集合(vertex)及顶点间的关系集合（边edge）组成的一种网状数据结构通常表示为二元组：Gragh=（V，E）可以对事物之间的关系建模应用场景在地图应用中寻找最短路径社交网络关系网页间超链接关系图的术语-1顶点（Vertex）边（Edge）Graph=(V,E)集合V={v1,v2,v3}集合E={

2020-08-10 18:31:40 3198

原创大数据常见面试题之spark core

文章目录一.spark的部署模式1.本地模式2.standalone模式3.spark on yarn模式二.driver的功能三.hadoop和spark都是并行计算,他们有什么相同点和不同点一.spark的部署模式1.本地模式spark不一定非要跑在hadoop集群,可以在本地,起多个线程的方式来指定.将spark应用以多线程的方式直接运行在本地,一般都是为了方便调试,本地模式分为三类1)local:只启动一个executor2)local[k]:启动k个executor3)local[*

2020-08-07 10:49:13 522

原创 spark基础练习2

有如下四个csv文件,列属性如下:#上传到本地#加载数据val customers = sc.textFile("file:///data/customers.csv").map(x => x.split(";").map(y => y.replace("\"", ""))) val products = sc.textFile("file:///data/products.csv").map(x => x.split(";").map(y => y.replace("\

2020-08-06 23:26:22 5014

原创 Apache Spark 分布式计算原理

Spark WordCount运行原理为什么需要划分Stage数据本地化移动计算，而不是移动数据保证一个Stage内不会发生数据移动RDD的依赖关系Lineage：血统、遗传RDD最重要的特性之一，保存了RDD的依赖关系RDD实现了基于Lineage的容错机制依赖关系宽依赖窄依赖宽依赖对比窄依赖宽依赖对应shuffle操作，需要在运行时将同一个父RDD的分区传入到不同的子RDD分区中，不同的分区可能位于不同的节点，就可能涉及多个节点间数据传输当RDD分区丢失时，Spark会

2020-08-06 14:35:38 428

原创 spark基础练习

在名为sparkwork.txt中有如下内容:班级ID 姓名年龄性别科目成绩12 张三 25 男 chinese 5012 张三 25 男 math 6012 张三 25 男 english 7012 李四 20 男 chinese 5012 李四 20 男 math 5012 李四 20 男 english 5012 王芳 19 女 chinese 7012 王芳 19 女 math 7012 王芳 19 女 english 7013 张大三 25 男 chinese 60

2020-08-04 22:39:31 4623

原创 Apache Spark基础及架构

文章目录一.为什么使用Spark二.Spark简介1.发展历程2.Spark优势3.Spark技术栈4.Spark环境部署5.Spark初体验6.Spark架构设计7.Spark架构核心组件8.Spark API三.核心API:RDD1.RDD概念2.RDD与DAG3.RDD的五大特性4.RDD编程流程5.RDD创建6.RDD分区与RDD的操作7.RDD转换算子8.RDD动作算子一.为什么使用SparkMapReduce编程模型的局限性繁杂:只有Map和Reduce两个操作，复杂的逻辑需要大量的样板

2020-08-04 12:43:49 902

原创大数据常见面试题之数据仓库

一.数仓中是如何划分主题的主题(subject)是在较高层次上将企业信息系统中的数据进行综合,归类和分析利用的一个抽象概念,每一个主题基本对应一个宏观的分析领域.在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象.例如销售分析就是一个分析领域,因此这个数据仓库应用的主题就是销售分析主题是根据分析的要求来确定的.这与按照数据处理或应用的要求来组织数据是不同的.如在生产企业中,同样是材料供应,在操作型数据库系统中,人们所关心的是怎样更方便和更快捷的进行材料供应的业务处理,而在进行分析处理时,人们

2020-08-03 10:40:15 5526 2

sun_0128的博客