大数据
文章平均质量分 90
"卜算子·大数据"系列文章与源码,面向后端开发工程师(感兴趣的同学)成为大数据开发工程师!
努力每周日文章更新进度+1,从入门到精通,努力构建大数据生态体系。
开源地址https://github.com/wangxiaoleiAI/big-data
王小雷-多面手
简单而真诚。专注大数据,机器学习,人工智能的多面手,对新兴的技术与知识充满了好奇与渴望!
展开
-
卜算子·大数据简介 一个开源、成体系的大数据学习教程
第1章 卜算子·大数据简介“卜算子·大数据”,是一个开源、成体系的大数据学习教程。从基础数据采集到顶层架构设计。最新梳理出大数据知识体系共计12个部分,42个章节。每周日更新,金九银十际,助你上青天!本章主要内容:特点“卜算子·大数据”架构项目更新写作目的原创声明1.1 特点* 关于 * ——“卜算子·大数据”,其中“卜算子”是中国诗词中唯一包含计算、占卜、...原创 2018-06-29 11:50:52 · 2462 阅读 · 0 评论 -
14.4 Spark-SQL基于Cassandra数据分析编程实例
14.4 Spark-SQL编程-PostgreSQL-Cassandra数据分析“卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新本节主要内容:Spark对Canssandra数据库数据的处理,通过Spark SQL对结构化数据进行数据分析。创建Gradle项目,引入依赖创建Spark Session连接写入Cassandra数据库读取Cassandra数...原创 2018-07-15 22:39:39 · 3069 阅读 · 0 评论 -
14.3 Spark-SQL基于PostgreSQL数据分析编程实例
14.3 Spark-SQL编程-PostgreSQL-Cassandra数据分析“卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新本节主要内容:Spark对PostgreSQL数据源数据的处理,通过Spark SQL对结构化数据进行数据分析。创建Gradle项目,引入依赖创建连接读数据库写数据库完整源码Spark2PostgreSQL.java完...原创 2018-07-15 22:08:35 · 1628 阅读 · 0 评论 -
14.1 Apache Spark 简介快速入门
14.1 Apache Spark 简介快速入门“卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新本节主要内容:速度简单易用Spark架构到处运行多种数据源14.1.1 速度百倍的运行速度。Spark使用先进的DAG调度系统,查询优化器与物理执行引擎,实现了批处理与流处理的高性能。14.1.2 简单易用、支持开发语言丰富df = ...原创 2018-07-15 22:03:00 · 693 阅读 · 0 评论 -
12.6 Cassandra开启远程连接
12.6 Cassandra开启远程连接“卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新本节主要内容:Cassandra开启远程连接12.6.1 修改Cassandra配置文件vim cassandra.yaml12.6.2 修改如下内容star_rpc: truelisten_address: 192.168.56.110rp...原创 2018-07-15 21:59:01 · 4852 阅读 · 0 评论 -
12.5 Cassandra安全配置--密码认证
12.5 Cassandra安全配置–密码认证“卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新本节主要内容:Cassandra密码模式配置12.5.1 打开配置文件vim cassandra.yaml12.5.2 修改如下内容authenticator: PasswordAuthenticator12.5.3 重启Cassa...原创 2018-07-15 21:57:39 · 2423 阅读 · 0 评论 -
12.3 Cassandra数据定义
12.3 Cassandra数据定义“卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新本节主要内容:数据定义12.3.1 Cassandra Query Language (CQL)CQL是Cassandra提供的接近SQL的模型,因为数据包含在行列的表中,CQL中的表,行,列的定义与SQL是相同的。12.3.2 启动cqlshcqlsh...原创 2018-07-08 17:05:16 · 556 阅读 · 0 评论 -
12.2 Cassandra安装
12.2 Cassandra安装“卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新本节主要内容:安装Canssandra下载、解压、移动Cassandrawget https://mirrors.tuna.tsinghua.edu.cn/apache/cassandra/3.11.2/apache-cassandra-3.11.2-bin.tar.g...原创 2018-07-08 16:59:17 · 506 阅读 · 0 评论 -
7.2 Sqoop2示例数据从PostgreSQL导入到HDFS
7.2 Sqoop2示例数据从PostgreSQL导入到HDFS“卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新本节主要内容:创建源数据PostgresSQL表与目标数据文件设置Sqoop2 server创建HDFS link,jdbc link创建job,执行job7.3.1 开启Hadoop集群sbin/start-dfs.shsbin/s...原创 2018-07-08 16:57:30 · 2593 阅读 · 4 评论 -
7.2 Sqoop2安装
7.2 Sqoop2安装“卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新本节主要内容:Sqoop2环境变量设置Sqoop2配置文件修改Sqoop2数据库初始化与验证开启Sqoop2关闭Sqoop2在此之前已经部署好Hadoop(伪分布式或者完全分布式),并设置了Hadoop环境变量(参考第二章 Linux)。7.2.1 Sqoop环境变量设置...原创 2018-07-08 16:51:15 · 379 阅读 · 0 评论 -
4.2 ApacheAvro编程Java示例
4.2ApacheAvro编程Java示例“卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新本节主要内容:创建Gradle项目、创建Avro模式使用Avro命令行工具生成Java代码不使用Avro命令行工具生成Java代码4.2.1 创建Gradle项目、创建Avro模式 Github源码创建Gradle项目 添加Avro依赖compile gr...原创 2018-07-08 16:47:05 · 1135 阅读 · 0 评论 -
4.1 数据存储格式
4.1 数据存储格式“卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新Avro是一个序列化系统。特点:支持丰富的数据结构紧凑、快速的二进制数据格式持久化存储的容器文件远程过程调用(RPC)动态语言的简单集成下载 https://mirrors.tuna.tsinghua.edu.cn/apache/avro/avro-1.8.2/java/avro...原创 2018-07-08 16:43:33 · 547 阅读 · 0 评论 -
2.5 Linux(Ubuntu18.04)安装数据库PostgreSQL
2.5 Linux(Ubuntu18.04)安装数据库PostgreSQL“卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新本节主要内容:创建一台database虚拟机(本章称为服务器)安装PostgreSQL2.5.1 创建Database服务器Ubuntu18.04serverHostname为databaseUsername为busuanzi静...原创 2018-07-08 16:41:08 · 1566 阅读 · 0 评论 -
2.4 Hadoop伪分布式快速部署
Hadoop伪分布式快速部署“卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新本节主要内容:依赖安装、免密登录安装Java伪分布式——Hadoop MapReduce配置配置Hadoop环境变量伪分布式——Hadoop MapReduce开启伪分布式——YARN配置伪分布式——YARN开启Hadoop 开启历史查看服务Hadoop 停止伪分布式集群命令...原创 2018-07-08 16:32:49 · 540 阅读 · 0 评论 -
2.2Virtualbox高级应用构建本地大数据集群服务器
2.2 Virtualbox高级应用构建本地大数据集群服务器“卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新本节主要内容:创建4台虚拟机(本章中称虚拟机亦称服务器)分别命名为(busuanzi.org,master,worker1,worker2)设置Host-only网络分别安装Linux服务器(Ubuntu18.04 Server版) 用于伪分布式的服务器...原创 2018-07-08 16:23:24 · 612 阅读 · 0 评论 -
12.4 Cassandra数据模型
12.4 Cassandra数据模型“卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新没有JOIN操作Cassandra没有表的连接操作,跟关系型数据库设计相比最好的方式是,反(非)规范化设计,设计为两个表连接后的结果表。没有参照完整性(外键) 虽然表中可以存储别的表的ID,但是没有级联删除的操作,所以没有外键操作。非规范化的设计在Cassandra数据库...原创 2018-07-08 17:08:05 · 457 阅读 · 0 评论 -
“卜算子·大数据”学习系列原创文章、源码——从入门到精通
大数据 big-data 转载请注明出处与作者信息(如下)原创作者:王小雷作品出自:https://github.com/wangxiaoleiAI/big-data联系邮件:[email protected] Fork Follow 评论 issues项目地址 https://github.com/wangxiaoleiAI/machine-learning...原创 2018-06-14 10:26:01 · 1220 阅读 · 1 评论 -
2.3 基于IDEA开发第一个MapReduce大数据程序WordCount
2.3 基于IDEA开发第一个MapReduce大数据程序WordCount 开源地址 https://github.com/wangxiaoleiAI/big-data卜算子·大数据 目录 开源“卜算子·大数据”系列文章、源码,面向大数据(分布式计算)的编程、应用、架构——每周更新!Linux、Java、Hadoop、Spark、Sqoop、hive、pig、hbase、z...原创 2018-06-24 15:02:22 · 4331 阅读 · 0 评论 -
2.2 Hadoop3.1.0完全分布式集群配置与部署
2.2 Hadoop3.1.0完全分布式集群配置与部署 开源地址 https://github.com/wangxiaoleiAI/big-data卜算子·大数据 目录 开源“卜算子·大数据”系列文章、源码,面向大数据(分布式计算)的编程、应用、架构——每周更新!Linux、Java、Hadoop、Spark、Sqoop、hive、pig、hbase、zookeeper、Oo...原创 2018-06-20 20:50:19 · 4651 阅读 · 1 评论 -
2.1 Hadoop伪分布式安装部署
2.1 Hadoop伪分布式安装部署 开源地址 https://github.com/wangxiaoleiAI/big-data卜算子·大数据 目录 开源“卜算子·大数据”系列文章、源码,面向大数据(分布式计算)的编程、应用、架构——每周更新!Linux、Java、Hadoop、Spark、Sqoop、hive、pig、hbase、zookeeper、Oozie、flink…et...原创 2018-06-15 08:42:58 · 1227 阅读 · 0 评论 -
1.3 virtualbox高级应用构建本地大数据集群服务器
1.3 virtualbox高级应用构建本地大数据集群服务器 开源地址 https://github.com/wangxiaoleiAI/big-data卜算子·大数据 目录 开源“卜算子·大数据”系列文章、源码,面向大数据(分布式计算)的编程、应用、架构——每周更新!Linux、Java、Hadoop、Spark、Sqoop、hive、pig、hbase、zookeeper...原创 2018-06-20 13:29:09 · 1310 阅读 · 0 评论 -
1.2 linux使用技巧快速入门
1.2 linux使用技巧快速入门 开源地址 https://github.com/wangxiaoleiAI/big-data卜算子·大数据 目录为大数据知识做基础准备,首先要对Linux有初步的了解,接下来就讲解一些Linux常用的技巧命令。1.2.1 debian/ubuntu常用命令# 更新软件sudo apt updatesudo apt upgrade...原创 2018-06-14 13:16:34 · 520 阅读 · 0 评论 -
1.1 Virtualbox虚拟机快速入门
1.1 Virtualbox虚拟机快速入门virtualbox安装、配置、安装Ubuntu 18.04过程详细记录 开源地址 https://github.com/wangxiaoleiAI/big-data卜算子·大数据 目录1.1.1 关闭BIOS安全启动项、开启BIOS中允许CPU虚拟选项、下载virtualbox、下载Linux Ubuntu 18.04镜像1...原创 2018-06-14 12:35:54 · 3225 阅读 · 0 评论