自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 数据挖掘项目的特征和关键环节

1 数据挖掘简介数据挖掘业界权威michael berry和gordon linoff的论述,数据挖掘是利用自动或半自动手段揭示大量数据中有意义的潜在规律的处理过程。这里需要强调的是“大量数据”和“有意义的潜在规律”,这两个特征将数据挖掘与传统的独立分散的数据分析及简单的数据库查询、报表应用区分开来。数据挖掘应用在近年来迅速发展,其基础是关系型数据库系统应用的逐步普及和成熟,以数据库形态存在的业务数据大量积累,为数据挖掘中的“大量数据”和“自动或半自动手段”提供了可能;其驱动力是业务需求..

2020-12-19 11:50:09 1316 1

原创 浅析数据挖掘技术

社会的发展进入了网络信息时代,各种形式的数据海量产生,在这些数据的背后隐藏着许多重要的信息,如何从这些数据中找出某种规律,发现有用信息,越来越受 到关注。为了适应信息处理新需求和社会发展各方面的迫切需要而发展起来一种新的信息分析技术,这种技术称为数据挖掘。数据挖掘就是从大量的、不完全的、有 噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。一、数据挖掘的对象数据挖掘可以在任何类型的数据上进行,即可以来自社会科学,又可以来自自然科学产生的数据,..

2020-12-19 11:48:49 939 1

原创 浅谈大数据、数据分析、数据挖掘的区别!

大数据是互联网的海量数据挖掘,而数据挖掘更多是针对内部企业行业小众化的数据挖掘,数据分析就是进行做出针对性的分析和诊断,大数据需要分析的是趋势和发展,数据挖掘主要发现的是问题和诊断。具体分析如下:  1、大数据(big data):  指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产;  在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不..

2020-12-19 11:46:49 372 1

原创 数据挖掘十大经典算法(包括各自优缺点 / 适用数据场景)

本文主要分析皆来自其他资料,借用较为权威的总结来对我已经学习的这些经典算法做一个极为精简的概述(根据自身经验有一定修改),另外同时附上机器学习实战中作者对各种算法的评价。另外机器学习实战这本书是本人看了这么多书籍或者资料中唯一一本坚持从头看到尾,看完了的书籍,包括其中的代码皆实践运行过,收获颇多,个人认为虽然这本书时间上已经算是老资料了,但其中作者的各种总结和代码的演练都由浅入深(前提还是要有一点基础的),让我能看懂并能从中学到东西,可能当时很多东西比较熟悉,后来淡忘,但当再次接触或使用它时能很快的重拾,所

2020-12-18 21:16:51 864 1

原创 大数据DMP画像系统

内容介绍一、目标1、掌握画像标签开发技巧2、掌握数据挖掘技巧3、了解业内画像和DMP系统的架构和开发4、大数据结合业务场景落地系统开发要求涉及的技术要点:spark 、elasticsearch、hadoop 、hive 、LR GBDT等机器学习算法 开发工具:idea、eclipse 开发环境:spark2.2、hadoop2.7、hive1.2、hbase、redis 开发语言:scala、java、python、shell、sql三、课程目录课程一览1、用户画像概述什么是用户

2020-12-18 21:15:28 427 1

原创 大数据未来七大发展趋势,第一竟然是物联网

数据一度野蛮生长,在利益催化之下出现浮华泡沫;不可否认的是,在大数据时代,数据挖掘、分析,通过方方面面来影响我们的生活,不仅更便利,而且还直接可以提升幸福感。美国PC Magazine总编辑柯斯塔认为,大数据的发展趋势以数字汇流对未来最具冲击,结合物联网、区块链、人工智能、语音识别等技术,这些科技相辅相成。◆◆未来大数据应用七大趋势◆◆云计算、大数据、人工智能和区块链等新兴技术与金融业务不断融合,科技对于金融的作用被不断强化,在政策的大力支持下,金融机构、科技企业对金融科技的投入力度持续

2020-12-18 21:12:29 778 1

原创 Spark处理数据出现大量GC导致处理性能变慢的原因及解决方案

Spark应用程序处理的大数据多是运行于JVM上的,经常要面对GC优化问题。下面给出由于Linux系统原因导致的GC耗时异常的处理方式:打开Spark的GC日志,在spark-env.sh文件中的SPARK_JAVA_OPTS参数上添加-verbose:gc-XX:+PrintGCDetails-XX:+PrintGCTimeStamps如果每次GC回收的量基本相同,但是在某一时间点,耗时异常大,这种情况下,有两种可能:1、GC收集对象所在内存被swap了2、GC线程进入IO等待状态,...

2020-12-18 21:11:01 2859 1

原创 Spark大数据处理 之 从WordCount看Spark大数据处理的核心机制

Spark大数据处理 之 从WordCount看Spark大数据处理的核心机制(1)大数据处理肯定是分布式的了,那就面临着几个核心问题:可扩展性,负载均衡,容错处理。Spark是如何处理这些问题的呢?接着上一篇的“动手写WordCount”,今天要做的就是透过这个大数据界的HelloWorld来看看Spark隐藏了哪些魔法。请各位看官,带着分布式的问题往下看。分布式架构大数据时代,单机装下PB级的数据,然后在可接受的时间内处理完,不可能,所以一定是分布式的。▶ 分布式存储HDFS(H

2020-12-18 21:10:09 155 2

原创 大数据核心技术spark,有史以来最通俗的解释

上次,小编给大家介绍什么是大数据以及大数据产生的五大原因!那,大数据来了,作为程序员的我们如何迎接大数据的到来?那便只有学好大数据,其中的重中之重我觉得就是Spark ,那什么是spark呢?或者说Spark是干嘛的 ... 上次,小编给大家介绍什么是大数据以及大数据产生的五大原因! 那,大数据来了,作为程序员的我们如何迎接大数据的到来? 那便只有学好大数据,其中的重中之重我觉得就是Spark,那什么是spark呢?或者说Spark是干嘛的? 我总结出四点: 1、.

2020-12-18 21:08:23 500 1

原创 大数据 Spark 架构

一.Spark的产生背景起源1.spark特点1.1轻量级快速处理Saprk允许传统的hadoop集群中的应用程序在内存中已100倍的速度运行即使在磁盘上也比传统的hadoop快10倍,Spark通过减少对磁盘的io达到性能上的提升,他将中间处理的数据放到内存中,spark使用了rdd(resilient distributed datasets)数据抽象这允许他在内存中存储数据,所以减少了运行时间1.2易于使用spark支持多种语言。Spark允许java,scala py...

2020-12-18 21:07:26 189 1

原创 Spark简介 --大数据

一、Spark是什么?快速且通用的集群计算平台二、Spark的特点:快速:Spark扩充流行的Mapreduce计算模型,是基于内存的计算 通用:Spark的设计容纳了其它分布式系统拥有的功能,批处理、迭代式计算、交互查询和流处理等,降低了维护成本 高度开放:Spark提供Python、Java、Scala、SQL的API和丰富的内置库,Spark和其它的大数据工作整合得很好,包括hadoop、Kafka三、Spark的组件1、Spark Core包含基本功能,包括任务调度、内存管

2020-12-18 21:04:59 241 1

原创 一文让你彻底了解大数据实时计算引擎 Flink

前言随着这些年大数据的飞速发展,也出现了不少计算的框架(Hadoop、Storm、Spark、Flink)。在网上有人将大数据计算引擎的发展分为四个阶段。第一代:Hadoop 承载的 MapReduce 第二代:支持 DAG(有向无环图)框架的计算引擎 Tez 和 Oozie,主要还是批处理任务 第三代:支持 Job 内部的 DAG(有向无环图),以 Spark 为代表 第四代:大数据统一计算引擎,包括流处理、批处理、AI、Machine Learning、图计算等,以 Flink 为代表或

2020-12-18 21:04:02 394 1

原创 大数据--Flink--流处理(一)

一、Flink简介  Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink设计为在所有常见的集群环境中运行,以内存速度和任何规模执行计算。官网:https://flink.apache.org/源码:https://github.com/apache/flinkFlink特点:流处理特性 (1)支持高吞吐、低延迟、高性能的流处理 (2)支持带有事件时间的窗口(Window)操作 (3)支持有状态计算的Exactly-once语义 (4

2020-12-18 21:02:21 428 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除