自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 资源 (3)
  • 收藏
  • 关注

原创 了解 Python 中 collections.defaultdict

  当使用普通的字典时,用法一般是 dict={},添加元素的只需要 dict[element] =value ,但前提是 element 字典里,如果不在字典里就会报错。  defaultdict 的作用是在于,当字典里的 key不存在但被查找时,返回的不是keyError 而是一个默认值。defaultdict 接受一个工厂函数作为参数,如下来构造:dict = defaultdict( factory_function)这个 factory_function 可以是 list、set、str

2020-07-07 20:08:39 474

原创 HBase 教程(超详细)

文章目录1. HBase 简介2. HBase 安装2.1 下载地址2.2 HBase 安装流程1. HBase 简介2. HBase 安装2.1 下载地址2.2 HBase 安装流程启动 Hadoop 集群启动 Zookeeper将 HBase 的安装包上传到服务器上(hbase-2.2.2-bin.tar.gz)解压 HBase 到指定目录tar -zxvf hbase-2.2.2-bin.tar.gz -C /hadoop/修改 HBase 的配置文件(/hadoop/h

2020-06-21 18:18:13 25678 4

原创 Hive 教程(一)—— Hive 介绍及安装

文章目录1. Hive 入门1.1 什么是 Hive1.2 Hive 的优缺点1.3 Hive 架构原理2. Hive 安装2.1 下载地址2.2 Hive 安装部署1. Hive 入门1.1 什么是 Hive  Hive:由 Facebook 开源用于解决海量结构化日志的数据统计,现已归于 Apache。  Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。  本质是:将 HQL 转化成 MapReduce 程序。Hive

2020-06-03 11:39:14 1135 1

原创 Spark 教程(一)—— 基础解析(超详细)

文章目录1. Spark 概述1.1 什么是 Spark1.2 Spark 内置模块1.3 Spark 特点1.4 Spark 的重要角色1.4.1 Driver(驱动器)1.4.2 Executor(执行器)1.5 Spark 官网2. Spark 运行模式2.1 Local 模式2.1.1 概述2.1.2 安装使用2.1.3 官方求 PI 案例2.1.4 WordCount 案例2.2 Standalone 模式2.2.1 概述2.2.2 安装使用1. Spark 概述1.1 什么是 Spark

2020-05-25 23:59:34 3139

原创 MapReduce 三个经典案例(倒排索引、TopN、找共同好友)

文章目录1. 倒排索引案例1.1 需求1.2 需求分析1.3 代码实现1.3.1 第一次处理1.3.2 第二次处理2. TopN 案例2.1 需求2.2 代码实现3. 找共同好友案例3.1 需求3.2 需求分析3.3 代码实现3.3.1 第一次处理3.3.2 第二次处理1. 倒排索引案例1.1 需求  有大量的文本(文档、网页),需要建立搜索索引。输入数据① a.txtatguigu pingpingatguigu ssatguigu ss    ② b.txtatguigu

2020-05-22 14:08:40 2531

原创 Zookeeper 教程(超详细)

文章目录1. Zookeeper 入门1.1 概述1.2 特点1.3 数据结构1.4 应用场景2. Zookeeper 安装2.1 下载地址2.2 本地模式安装部署2.3 分布式安装部署2.4 配置参数解读3. Zookeeper 内部原理3.1 选举机制3.2 节点类型3.3 Stat 结构体3.4 监听器原理3.5 写数据流程4. Zookeeper 实战4.1 客户端命令行操作4.2 API 操作4.3.1 IDEA 环境搭建4.3.2 创建 ZooKeeper 客户端4.3.3 创建子节点4.3.

2020-05-21 12:10:47 11699 3

原创 MapReduce 详细教程

文章目录1. MapReduce 概述1.1 MapReduce 定义1.2 MapReduce 优缺点1.3 MapReduce 核心思想1.4 MapReduce 进程1.5 MapReduce 编程规范1.6 WordCount 案例实操1.6.1 需求1.6.2 需求分析1.6.3 编写程序1. MapReduce 概述1.1 MapReduce 定义  MapReduce 是一个分...

2020-05-18 21:24:15 2315

原创 HDFS 教程(超详细)

文章目录 1. HDFS 介绍 2. HDFS 的 Shell 操作 3. HDFS 客户端操作 4. HDFS 的数据流 5. NameNode 和 SecondaryNameNode 6. DataNode 7. HDFS 2.X 新特性

2020-04-27 21:07:09 2748 1

原创 Hadoop 入门教程(超详细)

文章目录1. Hadoop 框架1.1 Hadoop 介绍1.1.1 Hadoop 是什么1.1.2 Hadoop 的发展历史1.1.3 Hadoop 三大发行版本1.1.4 Hadoop 的优势1.1.5 Hadoop 的组成1. Hadoop 框架1.1 Hadoop 介绍1.1.1 Hadoop 是什么Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。主要...

2020-04-18 23:49:52 76335 11

原创 Kafka 入门教程(超详细)

文章目录1. Kafka 概述1.1 定义1.2 消息队列1.2.1 传统消息队列的应用场景1.2.2 消息队列的两种形式1. Kafka 概述1.1 定义   Kafka 是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。1.2 消息队列1.2.1 传统消息队列的应用场景使用消息队列的好处:解耦允许独立的扩展或修改两边...

2020-03-29 15:45:20 16679 5

原创 Flume 入门教程(超详细)

文章目录1. Flume 概述1.1 Flume 定义1. Flume 概述1.1 Flume 定义  

2020-03-10 13:17:56 18281 4

原创 C 语言学习笔记(二)字符串和格式化输入/输出

文章目录1. 字符串简介1. 字符串简介  字符串(character string)是一个或多个字符的序列。例如:“a”、“abc”、“123”、“Hello World!”。其中双引号不是字符串的一部分,双引号只是告诉编译器它括起来的是字符串。  C 语言中没有专门用来存储字符串的的变量类型,字符串都被存储在 char 类型的数组中。数组由连续的存储单元组成,字符串中的字符被存储在相邻的...

2020-02-24 01:22:25 626

原创 C 语言学习笔记(一)C 语言介绍

文章目录1. C 语言起源2. C 语言标准2.1 ANSI/ISO C 标准2.2 C99 标准2.2 C11 标准3. 编程机制3.1 目标代码文件、可执行文件和库3.2 Linux 系统4. C 程序示例4.1 #include 指令和头文件4.2 main 函数4.3 注释4.4 花括号、函数体和块4.5 声明4.6 赋值1. C 语言起源  1972 年,贝尔实验室的 丹尼斯·里奇(...

2020-02-22 22:48:11 461 1

原创 使用 scikit-learn 构建模型

文章目录1. sklearn 介绍2. sklearn 转换器处理数据2.1 加载数据集2.2 划分数据集3. 聚类模型4. 分类模型5. 回归模型1. sklearn 介绍  scikit-learn(简称 sklearn)是一个简单有效的数据挖掘和数据分析工具,可以提供用户在各种环境下重复使用。而且 sklearn 建立在 Numpy、Scipy 和 Matplotlib 基础之上,对一些...

2020-02-19 19:40:49 2360 2

原创 使用 pandas 进行数据预处理

文章目录1. 合并数据1.1 堆叠合并数据1.1.1 横向堆叠1. 合并数据1.1 堆叠合并数据  堆叠就是简单地把两个表拼在一起,也被称作轴向连接、绑定或连接。依照连接轴的方向,数据堆叠可以分为横向堆叠和纵向堆叠。1.1.1 横向堆叠  横向堆叠,即将两个表在 x 轴方向拼接在一起,可以使用 concat 函数完成。pandas.concat(objs, axis=0, join='...

2020-02-16 00:05:56 3062 4

原创 Python 的 Pandas 统计分析基础

文章目录1. pandas 介绍1. pandas 介绍

2020-02-11 22:14:32 2533 1

原创 Python 的 Matplotlib 数值可视化

文章目录1. Matplotlib 介绍2. 绘图基本语法与常用参数2.1 pyplot 基础语法2.1.1 创建画布与创建子图2.1.2 添加画布内容2.1.3 保存与显示图形2.2 设置 pyplot 动态的 rc 参数3. 散点图和折线图3.1 绘制散点图3.2 绘制折线图4.直方图、饼图和箱线图4.1 绘制直方图4.2 绘制饼图4.3 绘制箱线图1. Matplotlib 介绍  Ma...

2020-02-05 13:53:32 1449

原创 Python 的 Numpy 数值计算

文章目录1. Numpy 介绍2. Numpy 数组2.1 介绍2.2 数组属性2.3 创建数组1. Numpy 介绍  Numpy(Numerical Python),是 Python 科学计算的基础包。Mumpy 主要提供了以下内容:快速高效的多维数组对象 ndarray。对数组执行元素级计算以及直接对数组执行科学计算的函数。线性代数、傅里叶变换及随机数生成的功能。将 C、C++...

2020-02-03 21:08:02 1104

原创 回归分析(线性回归、逻辑回归)详解与 Python 实现

文章目录1. 回归分析概述1.1 基本概念1. 回归分析概述1.1 基本概念  回归分析是处理多变量间相关关系的一种数学方法。相关关系不同于函数关系,函数关系反应变量间严格依存性,简单说就是一个自变量对应一个因变量。而相关分析中,对自变量的每一个取值,因变量可以有多个数值与之对应。在统计上,研究相关关系可以运用回归分析和相关分析。  当自变量为非随机变量而因变量为随机变量时,它们的关系分析...

2020-01-29 01:15:06 13575 4

原创 机器学习基础

文章目录1.1 机器学习概述1.2 机器学习的发展历程1.3 机器学习分类1.3.1 监督学习1.3.2 无监督学习1.1 机器学习概述  机器学习,通俗地讲就是让机器来实现学习的过程,让机器具有学习的能力。对机器而言,这里的 “学习” 指的是从数据中学习,从数据中产生 ”模型“ 的算法。有了学习算法,只要把经验数据提供给它,它就能够基于这些数据产生模型,在面对新的情况时,模型能够提供相应的判...

2020-01-24 15:20:11 480

原创 IDEA 编写第一个 Scala 程序

文章目录(一)IDEA 安装 Scala 插件(二)编写第一个 Scala 程序1. 新建一个 Maven 项目2. 添加 scala 目录3. 添加 Scala 框架4. 编写 Scala 程序(一)IDEA 安装 Scala 插件依次点击 File —— Setting —— Plugins,在 Marketplace 中输入 scala ,待 scala 选项出现后点击安装,安装后根据提...

2020-01-22 00:12:32 540

原创 Windows 和 Linux 下搭建 Scala 环境

(一)Windows 下搭建 Scala 环境1. 安装 jdk1.8这里 jdk 的版本大家可以根据自己的需要进行选择,我推荐使用 jdk1.8。因为大家可能电脑上已经安装过 jdk,所以就可以跳过这一步骤。2. 去官网下载对应的安装文件Scala 官网下载在官网页面下,选择对应的文件 scala-2.13.1.zip3. 解压文件到本地目录根据自己的需要选择要解压到的目录,我...

2020-01-21 19:47:40 229

原创 Scala 简介

Scala 简介Scala 语言的诞生创始人:马丁·奥德斯基(Martin Odersky)背景:马丁·奥德斯基是编译器及编程的狂热爱好者,他希望发明一种语言,能够使编程变得更加高效简洁。当他接触到 Java 语言后,对 Java 语言产生了极大的兴趣,所以他决定将函数式编程融入到 Java 中,由此发明了两种语言(Pizza & Scala)...

2020-01-21 16:26:15 841

“使用Pandas进行数据预处理”博文 数据集

“使用Pandas进行数据预处理”博文,的数据集,可以直接学习使用。博文连接 https://blog.csdn.net/weixin_42837961/article/details/104276607

2020-06-22

Python 实现多元线性回归 Jupyter Notebook 源代码和数据.zip

在 Jupyter Notebook 上用 Python 实现多元线性回归,包括源代码和数据,以供大家学习参考使用.

2020-01-29

Python 实现一元线性回归 Jupyter Notebook 源代码和数据.zip

在 Jupyter Notebook 上用 Python 实现的一元线性回归,包括源码和数据,大家可以学习参考使用

2020-01-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除