大数据
分享大数据相关知识
大都督老师
爱老婆不能只停留在口头上
展开
-
Spark运行架构和机制
Spark总体架构Spark总体架构包括:集群资源管理器(Cluster Manager)、多个运行作业任务的工作节点(Worker Node)、每个应用的任务控制节点(Driver)和每个工作节点上负责具体任务的执行进程(Executor)。Driver是运行Spark Application的main()函数,它会创建SparkContext。SparkContext负责和Cluster Manager通信,进行资源申请、任务分配和监控等。Cluster Manager负责申请和管理在Work原创 2020-08-02 19:45:36 · 372 阅读 · 0 评论 -
数据预处理笔记
数据预处理主要的基本处理方法数据预处理主要包括数据清洗(Data Cleaning)、数据集成(Data Integration)、数据转换(Data Transformation)和数据消减(Data Reduction)。大数据预处理的主要目的数据预处理负责将分散的、异构数据源中的数据如关系数据、网络数据、日志数据、文件数据等抽取到临时中间层,然后进行清洗、转换、集成,最后加载到数据仓库或数据库中,成为通过数据分析、数据挖掘等方式提供决策支持的数据。数据预处理能够帮助改善数据的质量,进而帮助原创 2020-07-25 11:03:47 · 2062 阅读 · 1 评论 -
Scrapy网络爬虫系统
Scrapy是一个为了爬取网站数据、提取结构性数据而编写 的应用框架,可以应用在包括数据挖掘、信息处理或存储历史数据等一系列的程序中。Scrapy架构Scrapy的整体架构由Scrapy引擎(Scrapy Engine)、调度器(Scheduler)、下载器(Downloader)、爬虫(Spiders)和数据项管道(Item Pipeline)5个组件和两个中间件构成。Scrapy引擎(Scrapy Engine):是整个系统的核心,负责控制数据在整个组件中的流动,并在相应动作发生时出发事件。.原创 2020-07-20 10:54:31 · 1269 阅读 · 0 评论 -
网络数据采集
网络数采集的主要功能网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息常用的网络采集系统分布式网络爬虫工具,如NutchJava网络爬虫工具,如Crawler4j、WebMagic、WebCollector。非Java网络爬虫工具,如Scrapy(基于Python语言开发)网络爬虫工作原理网络爬虫是一种按照一定的规则,自动地抓取Web信息的程序或者脚本。Web网络爬虫可以自动采集所有其能够访问到的页面内容,为搜索引擎和大数据分析提供数据来源。从功能上来讲,爬虫一般有原创 2020-07-19 13:12:21 · 5127 阅读 · 0 评论 -
系统日志采集方法
系统日志采集方法特征构建应用系统和分析系统的桥梁,并将它们之间的关联解耦。支持近实时的在线分析系统和分布式并发的离线分析系统。具有高可扩展性,也就是说,当数据量增加时,可以通过增加节点进行水平扩展。常用的系统日志采集系统Hadoop的ChukwaApache FlumeFacebook的ScribeLinkedIn的KafkaFlume基本概念Flume是一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输系统。Flume支持在日志系统中定制各类数据发送方,用于收集数据,原创 2020-07-18 22:53:30 · 5314 阅读 · 0 评论 -
大数据采集方法
大数据采集是指从传感器和智能设备、企业在线系统、企业离线系统、社交网络和互联网平台等获取数据的过程。数据数据包括RFID数据、传感器数据、用户行为数据、社交网络交互数据及移动互联网数据等各种类型的结构化、半结构化及非结构化的海量数据。大数据的分类业务数据:消费者数据、客户关系数据、库存数据、账目数据等。行业数据:车流量数据、能耗数据、PM2.5数据等。内容数据:应用日志、电子文档、机器数据、语音数据、社交媒体数据等。线上行为数据:页面数据、交互数据、表单数据、会话数据、反馈数据等。线.原创 2020-07-18 16:59:51 · 10713 阅读 · 0 评论 -
大数据技术笔记-02
大数据技术大数据关键技术涵盖数据存储、处理、应用等多方面的技术,根据大数据的处理过程,可将其分为大数据采集、大数据预处理、大数据存储及管理、大数据处理、大数据分析及挖掘、大数据展示等。大数据采集技术大数据采集技术是指通过RFID数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得各种类型的结构化、半结构化及非结构化的海量数据。大数据的数据源运营数据库、社交网络和感知设备3大类。大数据预处理技术是指完成对已接收数据的辨析、抽取、清洗、填补、平滑、合并、规格化及检查一致性等操作原创 2020-07-18 16:28:55 · 268 阅读 · 0 评论 -
大数据处理的基本流程步骤
在合适工具的辅助下,对广泛异构的数据源进行抽取和集成,将结果按照一定的标准进行统一存储,然后利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识,并利用恰当的方式将结果展现给终端用户。数据抽取与集成对所需数据源的数据进行抽取和集成,从中提取出数据的实体和关系,经过关联和聚合之后采用统一定义的结构来存储这些数据。在数据集成和提取时,需要对数据进行清洗,保证数据质量及可信性。数据抽取与集成方式大致分为4中类型基于物化或ETL方法的引擎基于联邦数据库或者中间件方法的引擎基于数据流方法的引擎原创 2020-07-18 12:01:37 · 4385 阅读 · 0 评论 -
大数据笔记-01
什么是大数据?大数据本身是一个抽象的概念。从一般意义上讲,大数据是指无法在有限时间内用常规软件工具对其进行获取、存储、管理和处理的数据集合。大数据的作用提供存储和运算平台。在软件和服务领域,大数据将引发数据快速处理分析技术、数据挖掘技术和软件产品的发展。提高核心竞争力的关键因素。大数据时代,科学研究的方法手段将发生重大的改变。大数据的4大特征是什么?Volume 数据体量巨大 PB级 ->EB级 ->ZB级Velocity 数据速度快 数据输入/输出的速度Variety原创 2020-07-18 11:06:44 · 423 阅读 · 0 评论