自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(101)
  • 问答 (1)
  • 收藏
  • 关注

原创 机器学习系列(四)学习器模型方法论:模型评估与选择---公平,准确,全面,我们能面面俱到吗??

写在前面: 我是「nicedays」,一枚喜爱做特效,听音乐,分享技术的大数据开发猿。这名字是来自world order乐队的一首HAVE A NICE DAY。如今,走到现在很多坎坷和不顺,如今终于明白nice day是需要自己赋予的。白驹过隙,时光荏苒,珍惜当下~~写博客一方面是对自己学习的一点点总结及记录,另一方面则是希望能够帮助更多对大数据感兴趣的朋友。如果你也对 大数据与机器学习感兴趣,可以关注我的动态 https://blog.csdn.net/qq_35050438,让我们一起挖掘数据与.

2020-08-30 21:48:45 1190

原创 机器学习系列(三)决策树的集成算法--随机森林与极限森林--三个臭皮匠与完美主义者的较量

写在前面: 我是「nicedays」,一枚喜爱做特效,听音乐,分享技术的大数据开发猿。这名字是来自world order乐队的一首HAVE A NICE DAY。如今,走到现在很多坎坷和不顺,如今终于明白nice day是需要自己赋予的。白驹过隙,时光荏苒,珍惜当下~~写博客一方面是对自己学习的一点点总结及记录,另一方面则是希望能够帮助更多对大数据感兴趣的朋友。如果你也对 大数据与机器学习感兴趣,可以关注我的动态 https://blog.csdn.net/qq_35050438,让我们一起挖掘数据与.

2020-08-30 01:24:20 2078 1

原创 机器学习系列(二)ML经典十大算法之一:决策树算法--从代码和统计学角度谈谈cs是如何预测你的行为

ML经典十大算法之一:决策树算法:既可以做分类也可以做回归,是一种不断通过判断你的个人特征来完成预测你对某件事做某种操作的概率的ML算法。一:如何构建树:把你的特征做为树节点,而把你对特征的不同情况而做出的不同反应作为分支路径。1):树的起源:根节点如何选择?根节点应该选择更好能切分数据得特征衡量标准:信息熵与信息增益信息量在数学上:当一件事是不太可能发生的时候,我们获取的信息量较大当一件事是极有可能发生的时候,我们获取的信息量较小例如:1.特朗普其实是中国的卧底

2020-08-29 18:42:40 897 2

原创 Hadoop系列 ( 三 ) MapReduce存在的意义----MapReduce究竟做了些什么??

**前言:**对于MapReduce,每次刷一遍都会感慨,究竟是谁想出如此巧妙的处理数据的方式,虽然现在它的使用不如以前那么广泛了,但是它的核心思想永远不会被淘汰,真的是非常的巧妙。不仅运用了“分而治之”,也巧妙的运用了映射和函数处理的思想,03年解决了我们大数据集处理的困扰。MapReduce的核心思想:MapReduce源于Google一篇论文,它充分借鉴了分而治之的思想,将一个数据处理过程拆分为主要的Map(映射)与Reduce(化简)两步如果用表达式表示,其过程如下式所示 :{Keyl.

2020-07-01 20:17:29 2168

原创 HBase系列(三)HBase物理架构与工作流程详解--收藏这一份就够了!!!

文章目录HBase物理架构:HMaster:HMaster的主要作用:--负责table和region管理工作HRegionServer:1.HLog ----简直和NN的editlog还有mysql的log文件一毛一样2.HRegion3.Store--一个Store代表一个列簇4.StoreFile5.blockcacheHBase物理架构工作流程:一:读操作:二:写操作细节扩展:一:为什么Client只需要知道Zookeeper地址就可以了呢?二:HBase三大模块如何一起协作的。(HMaster,R

2020-06-28 16:17:16 2128 2

原创 Hadoop系列(二 ) HDFS原理分析史上最详细,能和面试官吹半个小时

文章目录 HDFS架构: NameNode(NN): SecondaryNameNode(2NN): DataNode(DN): ResourceManager(RM): NodeManager(NM): HDFS具体工作原理: 一:NN----2NN(元数据节点工作原理) NN--DN(数据存取原理) 二:HDFS读文件流程: 三:HDFS写文件流程: HDFS具体应用: .

2020-06-03 16:07:08 1835

原创 HashMap的底层运作和源码解析---把最珍贵的源码理解分享出来

HashMap的底层运作和源码解析哈希的定义:任意长度的输入通过散列算法变换成固定长度的输出,该输出就是散列值(又称哈希值)哈希的作用:哈希的作用在数据结构和密码学中,发挥的作用不尽相同。今天我们主要去了解数据结构中的应用。Hash表----HashMap而JAVA中的HashMap和HashTable就是我们常说的Hash表在计算机的表现形式。生成HashMap的流程:一:...

2020-04-18 00:12:59 571 2

原创 机器学习:回归预测连续与离散的深度剖析----看完完全理解了回归是什么东西了!

回归的预测完整过程前提:1.线性回归与非线性回归概念要解释线性回归和非线性回归首先我们要理解这两个词(1):什么是回归(regression)?由于是外国人命名的,我们找其根源只能从英文单词开始入手,regression的词根有重复的意思统计学家在很久以前对于一些混乱的,看似无规律的,复杂的家族之间身高的数据中,不断统计提取,发现了一些规律,父亲身高高的,孩子的身高趋于下降,父亲身高矮...

2020-03-01 20:32:25 6067 1

原创 简单工厂----工厂方法----抽象工厂模式(JAVA)(区别,优缺,如何使用)---不会还有人不会用工厂把??

简单工厂简单工厂具体来说不算一种模式,而是一种设计思想————将业务逻辑和界面逻辑分离,即服务端和客户端分离在不需要客户端进行修改,在服务端修改增加产品类即可。具体的做法:1.创建工厂类作为父类,产品类作为工厂类子类,具体产品类作为产品类子类2.工厂类根据客户端选择参数的不同,建立创建产品函数返回产品对象,产品类写出方法,具体产品类作为具体实现服务端代码:服务端public cl...

2020-01-27 21:59:50 759

原创 手撸决策树代码——原理详解(3)+对汽车评价数据集的预测分析(python3)

第六步: 绘制决策树的图像我们通过得到决策树的深度和叶子结点的作用是:1.完成对于图像整体比例的把握,叶子结点有n个,就把横坐标分成n份进行绘制结点的宽度,2.同理深度有n层将纵坐标分成n份,完成结点的高度绘制。3.并以此为基础,通过计算公式得到根结点和叶子结点的位置,还有父子结点之间的特征文本的位置。4.并调用上几步函数完成结点绘制# 所以结点的绘制过程是根左右深度遍历到最左边的叶...

2019-12-12 14:07:00 3839 1

原创 数仓开发手册(1)--数仓分层与建模标准

一:背景缺乏统一的标准,如:开发规范、指标口径等。缺乏统一数据质量监控,如:数据缺失,字段数据不完整和不准确,数据发散等。业务知识体系混乱,导致数据开发人员开发成本增加。数据架构不合理,层级之间分工不明显,数据流向混乱。缺失统一维度和指标管理。二:目的建立规范 :规范是指群体所确立的行为标准。它们可以由组织正式规定,也可以是非正式形成。好的建模规范在前期可能会投入较大的成本,但在后期的收益必定会大于前期的投入。建立参照物 :在实际生产中指导同学开发,建设高质量的模型。提供更通用性的解

2021-10-09 09:39:20 518

原创 论道----跨学科专业学术交流平台:(草稿版)

论道----跨学科专业学术交流平台:一:软件产生的背景:现如今在中国,科研工作的成果产出主要集中在顶级大学的顶级学科以及一些科研性质的国有企业,而一般高校的科研项目的产出往往只能得到一些形式上的成果,如此现状的产生原因是多方面的,其中一个重要的原因就是创新难。大多数研究人员在本专业研究方向上进行多年的研究却很难取得成果,其原因就在于单一学科在长时间的发展过程中往往已经陷入固化,后人工作往往为先人工作所限制,较难产生创新性。而解决这种尴尬现状的办法之一就是跨学科交流,不同学科之间往往有着不同的研究方法,

2021-05-03 17:44:06 832

原创 DataWorks系列(一): Dataworks下的MaxCompute(ODPS)的基本简介--经典六问

文章目录Dataworks下的MaxCompute(ODPS)基本简介(一):一:MaxCompute是什么?二:MaxCompute里面有什么?三:MaxCompute系统架构是什么?四:如何导入数据到MaxCompute?五:MaxCompute对于有一定开发经验的人员来说有什么好处?六:MaxCompute存储性能如何?TPC-DS测试Dataworks下的MaxCompute(ODPS)基本简介(一):最近一直再用阿里云的产品,先来聊一聊咋们接触最多的maxcompute这篇文章是写给有一定

2020-11-28 18:04:12 6651 1

原创 机器学习系列(五)特征工程前的数据探索--培养数据敏感的方法论

写在前面: 我是「nicedays」,一枚喜爱做特效,听音乐,分享技术的大数据开发猿。这名字是来自world order乐队的一首HAVE A NICE DAY。如今,走到现在很多坎坷和不顺,如今终于明白nice day是需要自己赋予的。白驹过隙,时光荏苒,珍惜当下~~写博客一方面是对自己学习的一点点总结及记录,另一方面则是希望能够帮助更多对大数据感兴趣的朋友。如果你也对 大数据与机器学习感兴趣,可以关注我的动态 https://blog.csdn.net/qq_35050438,让我们一起挖掘数据与.

2020-09-28 00:12:08 924

原创 Kafka系列(五)Kafka体系架构英文版

文章目录数据缓冲Kafka:kafka architecturekafka topicKafka Message FlowKafka High-Throughput & Low-Latencykafka Brokerkafka Producerkafka Consumerkafka ZooKeeperkafka APIMessage OrderingMessage ReplicationData Loss at the ProducerData Delivered but Loss in the C

2020-09-23 12:27:59 790

原创 Spark系列(十)Shuffle的技术难点问题--Spark比MapReduce快的真正原因

写在前面: 我是「nicedays」,一枚喜爱做特效,听音乐,分享技术的大数据开发猿。这名字是来自world order乐队的一首HAVE A NICE DAY。如今,走到现在很多坎坷和不顺,如今终于明白nice day是需要自己赋予的。白驹过隙,时光荏苒,珍惜当下~~写博客一方面是对自己学习的一点点总结及记录,另一方面则是希望能够帮助更多对大数据感兴趣的朋友。如果你也对 大数据与机器学习感兴趣,可以关注我的动态 https://blog.csdn.net/qq_35050438,让我们一起挖掘数据与.

2020-09-23 12:16:29 739

原创 数据仓库系列(三)数据仓库--高级维度建模方法--对维度的各种情况进一步整合和拆分

写在前面: 我是「nicedays」,一枚喜爱做特效,听音乐,分享技术的大数据开发猿。这名字是来自world order乐队的一首HAVE A NICE DAY。如今,走到现在很多坎坷和不顺,如今终于明白nice day是需要自己赋予的。白驹过隙,时光荏苒,珍惜当下~~写博客一方面是对自己学习的一点点总结及记录,另一方面则是希望能够帮助更多对大数据感兴趣的朋友。如果你也对 大数据与机器学习感兴趣,可以关注我的动态 https://blog.csdn.net/qq_35050438,让我们一起挖掘数据与.

2020-09-23 12:07:18 1464

原创 数据仓库系列(二)哲学建模的艺术:如何完成数仓的维度建模设计??--做好宏观角度考虑维度一致性

写在前面: 我是「nicedays」,一枚喜爱做特效,听音乐,分享技术的大数据开发猿。这名字是来自world order乐队的一首HAVE A NICE DAY。如今,走到现在很多坎坷和不顺,如今终于明白nice day是需要自己赋予的。白驹过隙,时光荏苒,珍惜当下~~写博客一方面是对自己学习的一点点总结及记录,另一方面则是希望能够帮助更多对大数据感兴趣的朋友。如果你也对 大数据与机器学习感兴趣,可以关注我的动态 https://blog.csdn.net/qq_35050438,让我们一起挖掘数据与.

2020-09-05 19:21:56 644 1

原创 数据仓库系列(一)数据仓库的特点与架构分类--数仓与数据库究竟有什么区别??

文章目录数据仓库理论介绍:一:数据仓库的四大特点:1):面向主题:提取主题:2):集成3):非易失4):随时间变化二:数据仓库和数据库的区别三:OLTP和OLAP的区别:四:有哪些数据仓库架构?lnmon架构--范式建模:ER建模:Data Vault建模:Data Vault组成:Anchor建模:Anchor模型组成:Kimball架构--维度建模:维度建模数据仓库模型构建过程:选择业务流程声明粒度确认维度确认事实混合型架构:数据仓库的解决方案:数据采集数据存储数据计算数据可视化任务调度数据仓库理论介

2020-09-05 16:26:56 2694 1

原创 Redis系列(一)Redis单机centOS7下安装与基本命令介绍

文章目录Redis安装与基本命令:一:Redis安装:第一步:下载redis安装包第二步:解压压缩包并移动到指定目录第三步:yum安装gc依赖第四步:跳转到redis解压目录下第五步:编译安装第六步:修改redis.conf文件第七步:到src目录启动redis第八步:开启另一个窗口在src下启动命令行二:Redis数据类型:String:Hash:List:Set:三:redis常见命令:redis键值命令:redis字符串命令:redis哈希命令:redis列表命令:redis集合命令:Redis安装

2020-08-25 18:52:05 548

原创 用户画像实战系列(一)什么是用户画像?如何对用户历史搜词信息进行标签化?(python)

写在前面: 我是「nicedays」,一枚喜爱做特效,听音乐,分享技术的大数据开发猿。这名字是来自world order乐队的一首HAVE A NICE DAY。如今,走到现在很多坎坷和不顺,如今终于明白nice day是需要自己赋予的。白驹过隙,时光荏苒,珍惜当下~~写博客一方面是对自己学习的一点点总结及记录,另一方面则是希望能够帮助更多对大数据感兴趣的朋友。如果你也对 大数据与机器学习感兴趣,可以关注我的动态 https://blog.csdn.net/qq_35050438,让我们一起挖掘数据与.

2020-08-24 14:22:04 1467 1

原创 Python系列(一)numpy库的常用方法---将多维数组与多维矩阵相结合--提供丰富的统计与线代处理API

写在前面: 我是「nicedays」,一枚喜爱做特效,听音乐,分享技术的大数据开发猿。这名字是来自world order乐队的一首HAVE A NICE DAY。如今,走到现在很多坎坷和不顺,如今终于明白nice day是需要自己赋予的。白驹过隙,时光荏苒,珍惜当下~~写博客一方面是对自己学习的一点点总结及记录,另一方面则是希望能够帮助更多对大数据感兴趣的朋友。如果你也对 大数据与机器学习感兴趣,可以关注我的动态 https://blog.csdn.net/qq_35050438,让我们一起挖掘数据与.

2020-08-23 00:19:58 965

原创 SparkStreaming系列(一)SparkStreaming工作原理及流程操作---揭开实时流的本质--如何操作实时流数据

写在前面: 我是「nicedays」,一枚喜爱做特效,听音乐,分享技术的大数据开发猿。这名字是来自world order乐队的一首HAVE A NICE DAY。如今,走到现在很多坎坷和不顺,如今终于明白nice day是需要自己赋予的。白驹过隙,时光荏苒,珍惜当下~~写博客一方面是对自己学习的一点点总结及记录,另一方面则是希望能够帮助更多对大数据感兴趣的朋友。如果你也对 大数据与机器学习感兴趣,可以关注我的动态 https://blog.csdn.net/qq_35050438,让我们一起挖掘数据与.

2020-08-23 00:07:11 721

原创 SparkStreaming系列(三)SparkStreaming性能优化---如何合理使用Streaming处理时的时间与内存?

写在前面: 我是「nicedays」,一枚喜爱做特效,听音乐,分享技术的大数据开发猿。这名字是来自world order乐队的一首HAVE A NICE DAY。如今,走到现在很多坎坷和不顺,如今终于明白nice day是需要自己赋予的。白驹过隙,时光荏苒,珍惜当下~~写博客一方面是对自己学习的一点点总结及记录,另一方面则是希望能够帮助更多对大数据感兴趣的朋友。如果你也对 大数据与机器学习感兴趣,可以关注我的动态 https://blog.csdn.net/qq_35050438,让我们一起挖掘数据与.

2020-08-22 22:53:25 1473

原创 SparkStreaming 系列(二)kafka与Streaming集成direct流实战---多流集群高并发场景代码演示

写在前面: 我是「nicedays」,一枚喜爱做特效,听音乐,分享技术的大数据开发猿。这名字是来自world order乐队的一首HAVE A NICE DAY。如今,走到现在很多坎坷和不顺,如今终于明白nice day是需要自己赋予的。白驹过隙,时光荏苒,珍惜当下~~写博客一方面是对自己学习的一点点总结及记录,另一方面则是希望能够帮助更多对大数据感兴趣的朋友。如果你也对 大数据与机器学习感兴趣,可以关注我的动态 https://blog.csdn.net/qq_35050438,让我们一起挖掘数据与.

2020-08-22 21:33:05 411

原创 kafka系列(四) Kafka怎么保证数据可靠?---数据正确性是大数据广泛应用的基本保障

Kafka怎么保证数据可靠?往两大方向考虑问题:一:如何保证数据不丢失?1):副本同步机制:kafka的partition为主从结构,在一个partition里,存在leader和follower,当数据发送给leader后,需要确保follower和leader数据同步后才发送给producer一个ack副本同步实现-ISR副本同步队列:ISR(In-Sync Replicas),副本同步队列。ISR中包括leader和follower,如果leader挂掉,ISR队列会选择一个

2020-08-18 11:37:22 795

原创 kafka 系列 (三) kafka怎么完成数据的高速读写?---kafka四大优化读写性能奠定消息中间件的统治地位

写在前面: 我是「nicedays」,一枚喜爱做特效,听音乐,分享技术的大数据开发猿。这名字是来自world order乐队的一首HAVE A NICE DAY。如今,走到现在很多坎坷和不顺,如今终于明白nice day是需要自己赋予的。白驹过隙,时光荏苒,珍惜当下~~写博客一方面是对自己学习的一点点总结及记录,另一方面则是希望能够帮助更多对大数据感兴趣的朋友。如果你也对 大数据与机器学习感兴趣,可以关注我的动态 https://blog.csdn.net/qq_35050438,让我们一起挖掘数据与.

2020-08-18 10:07:30 839

原创 Spark 系列(九) Spark数据倾斜之六大使用场景---真正详细得数据倾斜实战套路!!

写在前面: 我是「nicedays」,一枚喜爱做特效,听音乐,分享技术的大数据开发猿。这名字是来自world order乐队的一首HAVE A NICE DAY。如今,走到现在很多坎坷和不顺,如今终于明白nice day是需要自己赋予的。白驹过隙,时光荏苒,珍惜当下~~写博客一方面是对自己学习的一点点总结及记录,另一方面则是希望能够帮助更多对大数据感兴趣的朋友。如果你也对 大数据与机器学习感兴趣,可以关注我的动态 https://blog.csdn.net/qq_35050438,让我们一起挖掘数据与.

2020-08-17 15:55:06 828

原创 Kafka 系列(二)文件存储机制与Producer架构原理---怎样保证数据可靠性??

文章目录Kafka工作流程及文件存储机制工作流程:topic底层存储:Producer生产者架构:一:分区存储策略:1.分区的原因:2.分区的原则:ProducerRecord构造器:二:数据可靠性保证策略:生产者到Kafka端发送数据:副本数据同步策略:ISR:动态集合in-sync replica set故障节点发生处理细节:ack应答机制:Exactly Once语义:幂等性实现:Kafka工作流程及文件存储机制工作流程:第一步:生产者往broker的topic的leader发送数据,fo

2020-08-12 20:17:50 961 2

原创 Kafka 系列(一)Kafka基本简介与单机部署及一些简单命令---消息队列缓冲数据洪水

文章目录Kafka基本简介与命令:一:为什么要使用消息中间件(MQ)?二:kafka单机部署第一步:解压tar包并复制第二步:配置全局变量第三步:修改server.properties第四步:先启动zk,开启kafka:三:Topic:主题四:Message五:Producer:生产者六:Broker:消息服务器七:Consumer:消费者八:ZooKeeper在Kafka中的作用:九:一些简单命令:开启kafka:创建主题:查看主题:向消息队列中生产消息:消费信息删除主题查看对应分区的数据重置用户组游标

2020-08-12 11:41:25 709

原创 阿里云产品 系列(一)MaxCompute简介与使用--上

文章目录MaxCompute简介:ODPS概念:MaxCompute作用:MaxCompute功能组成:MaxCompute组件:MaxCompute基本概念:项目空间:表:表格类型:分区:分区的作用:任务:资源:服务连接:大数据计算服务组成架构:客户端:接入层:逻辑层:MaxCompute简介:ODPS概念:大数据计算服务是一种快速,完全托管TB/PB级数据仓库解决方案。MaxCompute作用:批量结构化数据的存储和计算提供海量数据仓库和大数据分析建模解决方案MaxCompute功

2020-08-12 11:12:58 2212

原创 Spark 系列(八)SparkSQL和集成数据源-及简单优化方案----简化工作的利器!!

文章目录SparkSQL和集成数据源-及简单优化:SparkSQL优化器--Catalyst Optimizer具体流程:Spark SQL API :具体优化流程:原流程:优化流程:DataSet与DataFrame操作Spark SQL操作外部数据源Parquet文件:Hive数据源集成:Mysql数据源集成:Spark函数UDF使用:Spark性能优化一:序列化:二:使用对象数组三:避免嵌套结构四:尽量使用数字作为Key,而非字符串五:以较大的RDD使用MEMORY_ONLY_SER六:加载CSV、J

2020-08-12 11:03:04 1046 2

原创 JVM入门到精通系列 (二)运行时数据区的程序计数器和虚拟机栈简介----栈与计数器的深度理解

文章目录运行时数据区概述:程序计数器(PC寄存器)--program counter register:一:pc寄存器作用:二:两个常见问题:虚拟机栈--stack:一:是什么?二:生命周期:三:作用:四:栈的异常:如何设置栈内存大小:五:栈的存储单位:java栈帧方法有两种返回函数的方式:六:栈帧的内部结构:局部变量表(local variables)Slot理解:静态变量和局部变量的对比和小结:运行时数据区概述:每个线程: 独立包括程序技术器,栈,本地栈线程间共享: 堆,堆外内存(永久代或元空间,

2020-08-10 11:00:28 883 1

原创 Spark系列 (七)SparkGraphX下的Pregel方法----完美解决单源最短路径的应用算法

文章目录Pregel框架:一:Spark GraphX Pregel:二:Pregel计算过程:Pregel函数源码及各个参数解析:三:案例:单源最短路径第一步:调用pregel方法:第二步:第一次迭代:第三步:第二次迭代:第四步:不断迭代,直至所有顶点处于钝化态案例代码如下:Pregel框架:一:Spark GraphX Pregel:Pregel是google提出的用于大规模分布式图计算框架图遍历(bfs)单源最短路径(sssp)pageRank计算Pregel的计算有一系列迭代组

2020-08-07 00:26:42 1505 2

原创 Flume系列 (二)Flume的实际操作--增量写入Hive--自定义拦截器完成数据过滤--数据传入kafka消费

写在前面: 我是「nicedays」,一枚喜爱做特效,听音乐,分享技术的大数据开发猿。这名字是来自world order乐队的一首HAVE A NICE DAY。如今,走到现在很多坎坷和不顺,如今终于明白nice day是需要自己赋予的。白驹过隙,时光荏苒,珍惜当下~~写博客一方面是对自己学习的一点点总结及记录,另一方面则是希望能够帮助更多对大数据感兴趣的朋友。如果你也对 大数据与机器学习感兴趣,可以关注我的动态 https://blog.csdn.net/qq_35050438,让我们一起挖掘数据与.

2020-08-06 12:30:04 790 1

原创 Flume系列(一)Flume简介与基本使用--Source--Channel--Sink 收集传输三部曲

写在前面: 我是「nicedays」,一枚喜爱做特效,听音乐,分享技术的大数据开发猿。这名字是来自world order乐队的一首HAVE A NICE DAY。如今,走到现在很多坎坷和不顺,如今终于明白nice day是需要自己赋予的。白驹过隙,时光荏苒,珍惜当下~~写博客一方面是对自己学习的一点点总结及记录,另一方面则是希望能够帮助更多对大数据感兴趣的朋友。如果你也对 大数据与机器学习感兴趣,可以关注我的动态 https://blog.csdn.net/qq_35050438,让我们一起挖掘数据与.

2020-08-06 09:58:05 409

原创 Spark 系列(六)Spark-GraphX的PageRank算法----热度排名的实例代码+图解展示

Spark GraphX 图算法:一:PageRank模型:每个网页为一个点A到B的链接抽象为一条有向边整张网页链接抽象成一份有向图接下来我们通过一个转移矩阵来表示用户从页面i到页面j的可能性M=[01201213001213120013010]M = \begin{bmatrix}0 & \frac{1}{2} & 0 & \frac{1}{2} \\\frac{1}{3} & 0 & 0 & \frac{1}{2} \\\frac{

2020-08-05 14:22:27 2186 2

原创 Spark系列 (五)Spark-GraphX的基本介绍与算子的简单使用---网络红人排名实例分解

Spark GraphX:一:图的概念:图由顶点集合(vertex)及顶点间的关系集合(边edge) 组成的网状数据结构表示为二元组: Graph = (V, E)可以对事物之间的关系建模应用场景:在地图应用中寻找最短路径社交网络关系网页间超链接关系1.邻接矩阵—————稠密图的存储(存边多)2.邻接表 —————稀疏图的存储(存顶点多或者边少)3.十字链表—————邻接表的升级版4.邻接多重表————邻接矩阵的升级版二:Spark GraphX 数据模型:G

2020-08-04 19:06:50 1702

原创 Spark系列 (四)第一部分:RDD-DataSet-DataFrame你究竟该用哪个?应该如何使用API??

写在前面: 我是「nicedays」,一枚喜爱做特效,听音乐,分享技术的大数据开发猿。这名字是来自world order乐队的一首HAVE A NICE DAY。如今,走到现在很多坎坷和不顺,如今终于明白nice day是需要自己赋予的。白驹过隙,时光荏苒,珍惜当下~~写博客一方面是对自己学习的一点点总结及记录,另一方面则是希望能够帮助更多对大数据感兴趣的朋友。如果你也对 大数据与机器学习感兴趣,可以关注我的动态 https://blog.csdn.net/qq_35050438,让我们一起挖掘数据与.

2020-07-29 19:35:00 635

原创 Spark系列(三)更快一点--Spark运行处理数据原理,如何简单提高并行度??

写在前面: 我是「nicedays」,一枚喜爱做特效,听音乐,分享技术的大数据开发猿。这名字是来自world order乐队的一首HAVE A NICE DAY。如今,走到现在很多坎坷和不顺,如今终于明白nice day是需要自己赋予的。白驹过隙,时光荏苒,珍惜当下~~写博客一方面是对自己学习的一点点总结及记录,另一方面则是希望能够帮助更多对大数据感兴趣的朋友。如果你也对 大数据与机器学习感兴趣,可以关注我的动态 https://blog.csdn.net/qq_35050438,让我们一起挖掘数据与.

2020-07-29 19:27:56 701

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除