2019年10月_iwtbs_kevin

原创大数据的一些基本概念

文章目录hadoop生态Spark StreamingFlinkETLhadoop生态Pig：一个基于Hadoop的大规模数据分析平台，为海量数据的并行计算，提供了一个简单的操作和编程接口Hive：就是一个工具，有完整的SQL查询的功能，可以将sql语句转换为MapReduce任务进行运行，当然也要基于hadoopZooKeeper：高效的，可拓展的协调系统，存储和协调关键共享状态...

2019-10-29 21:19:04 396

转载 SparkMLlib简介

1、机器学习概念1.1 机器学习的定义在维基百科上对机器学习提出以下几种定义：l“机器学习是一门人工智能...

2019-10-29 20:39:42 224

原创 Spark Streaming例子

Spark Streaming 概要在内部，其按如下方式运行。Spark Streaming接收到实时数据流同时将其划分为分批，这些数据的分批将会被Spark的引擎所处理从而生成同样按批次形式的最终流。例子在深入了解如何编写你自己的SS程序之前，让我们先迅速浏览下基本的SS程序是什么样的。假设我们想统计文本数据中单词个数(数据来自于监听一个TCP接口的数据服务器)。你只需要这样做：第一...

2019-10-29 20:10:05 115

原创 MVC是什么

文章目录MVC模式MVC模式MVC 模式代表 Model-View-Controller（模型-视图-控制器）模式。这种模式用于应用程序的分层开发。Model（模型） - 模型代表一个存取数据的对象或 JAVA POJO。它也可以带有逻辑，在数据变化时更新控制器。View（视图） - 视图代表模型包含的数据的可视化。Controller（控制器） - 控制器作用于模型和视图上。它控制...

2019-10-29 19:01:31 207

原创 SOA架构

文章目录基于SOA架构核心模块和中间件详解系统间通信分布式文件服务器缓存搜索功能消息队列反向代理主从备份基于SOA架构SOA：Service Oriented Architecture面向服务的架构。也就是把工程都拆分成服务层工程、表现层工程。服务层中包含业务逻辑，只需要对外提供服务即可。表现层只需要处理和页面的交互，业务逻辑都是调用服务层的服务来实现。工程都可以独立部署。在一个典型的SO...

2019-10-29 17:29:19 582

原创 seaborn 数据可视化——分类图

Seaborn的分类图分为三类，将分类变量每个级别的每个观察结果显示出来，显示每个观察分布的抽象表示，以及应用统计估计显示的权重趋势和置信区间：第一个包括函数swarmplot()和stripplot()第二个包括函数boxplot()和violinplot()第三个包括函数barplot()和pointplt()import numpy as npimport matplotlib...

2019-10-24 11:09:43 1442

原创 leetcode数据结构算法框架——二分查找

二分查找思路很简单，注意细节二分查找框架int binarySearch(int[] nums, int target) { int left = 0, right = ...; while(...) { int mid = (right + left) / 2; if (nums[mid] == target) { ...

2019-10-20 19:40:23 136

原创 leetcode数据结构算法框架——回溯

回溯法实际上回溯算法就是一个 N 叉树的前序遍历加上后序遍历而已，而且回溯算法是有模板的，一旦掌握，就能秒杀相关问题。下面，我们来循序渐进地理解。// 二叉树遍历框架def traverse(root): if root is None: return # 前序遍历代码写在这 traverse(root.left) # 中序遍历代码写在这 trave...

2019-10-20 19:29:11 199

动态规划动态规划算法（Dynamic Programming，简称 DP）似乎是一种很高深莫测的算法，你会在一些面试或算法书籍的高级技巧部分看到相关内容，什么状态转移方程，重叠子问题，最优子结构等高大上的词汇也可能让你望而却步。实际上，动态规划是一种常见的「算法设计技巧」，并没有什么高深莫测，至于各种高大上的术语，那是吓唬别人用的，只要你亲自体验几把，这些名词的含义其实显而易见，再简单不过了。...

2019-10-20 19:27:18 374

原创 leetcode数据结构算法框架——递归

递归浅析递归递归代码最重要的两个特征：结束条件和自我调用。自我调用是在解决子问题，而结束条件定义了最简子问题的答案。int func(你今年几岁) {// 最简子问题，结束条件if (你1999年几岁) return 我0岁;// 自我调用，缩小问题规模return func(你去年几岁) + 1;}写递归的技巧我的一点心得是：明白一个函数的作用并相信它能完成这个任务，千万不...

2019-10-20 19:26:38 199

原创 git使用

第一步：建立git仓库新建一个本地仓库，其实也就是新建一个文件夹。最简单的创建方式就是直接在桌面鼠标右键，新建文件夹(test)，然后进去该文件夹。鼠标右键，打开git -> Git Bash Here -> git init。执行命令后目录下创建一个.git文件夹。git init第二步：添加需要上传到github的代码到本地仓库如何添加，首先将需要上传的代码复制粘贴到本地...

2019-10-12 20:41:30 121

原创大数据Hadoop，spark学习

Hadoop基础一个 Hadoop job 通常都是这样的：从 HDFS 读取输入数据；在 Map 阶段使用用户定义的 mapper function, 然后把结果写入磁盘；在 Reduce 阶段，从各个处于 Map 阶段的机器中读取 Map 计算的中间结果，使用用户定义的 reduce function, 通常最后把结果写回 HDFS;很多计算，就比如我们刚才的例子，都可以拆分成...

2019-10-10 17:48:42 167

原创关联分析/频繁项挖掘算法： FpGrowth算法

背景Aprori算法利用频繁集的两个特性，过滤了很多无关的集合，效率提高不少，但是我们发现Apriori算法是一个候选消除算法，每一次消除都需要扫描一次所有数据记录，造成整个算法在面临大数据集时显得无能为力。今天我们介绍一个新的算法挖掘频繁项集，效率比Aprori算法高很多FpGrowth算法通过构造一个树结构来压缩数据记录，使得挖掘频繁项集只需要扫描两次数据记录，而且该算法不需要生成候选集合...

2019-10-08 16:58:28 596

原创关联分析/频繁项集挖掘：Apriori算法

简介Apriori是一种流行的算法，用于在关联规则学习中提取频繁项集。Apriori算法被设计用于对包含交易的数据库进行操作，例如商店客户的购买。如果项目集满足用户指定的支持阈值，则该项目集被视为“频繁”。例如，如果支持度阈值设置为0.5（50％），则频繁项目集被定义为在数据库中所有事务的至少50％中一起发生的项目集合定义支持度（support）：support(A=>B) = P(A...

2019-10-08 15:39:44 1505

iwtbs