课堂笔记
文章平均质量分 93
大数据课堂笔记
给dongcc换成百威
百威IT技术交流,企鹅942277506,课程视频https://www.bilibili.com/video/BV1Ep4y1i7yn/
展开
-
人工智能第三章:TensorFlow
1 TensorFlow不要理会1.0版本的任何咨询,如果学过1.0,忘掉他。TensorFlow™ 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数组,即张量(tensor)。它灵活的架构让你可以在多种平台上展开计算,例如台式计算机中的一个或多个CPU(或GPU),服务器,移动设备等等。TensorFlow 最初由Google大脑小组(隶属于Google机器智能研究机构原创 2020-06-30 01:17:30 · 734 阅读 · 1 评论 -
人工智能第二章:什么是人工智能
1 什么是人工智能人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以设想,未来人工智能带来的科技产品,将会是人类智慧的“容器”。人工智能可以对人的原创 2020-06-30 00:58:47 · 1762 阅读 · 0 评论 -
人工智能第一章:Python语言基础+爬虫
1 Python简介Python是一种跨平台的计算机程序设计语言。是一种面向对象的动态类型语言,最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越来越多被用于独立的、大型项目的开发。1.1 起源Python的作者是著名的“龟叔”Guido van Rossum,他希望有一种语言,这种语言能够像C语言那样,能够全面调用计算机的功能接口,又可以像shell那样,可以轻松的编程。龟叔从ABC语言看到希望,ABC语言是由荷兰的数学和计算机研究所开发的。龟叔也参与到ABC语言的原创 2020-06-23 11:57:13 · 5865 阅读 · 1 评论 -
第七章:HadoopHA搭建
Hadoop2.0 HA搭建步骤 准备工作 6台虚拟机,内存512M,hadoop1~6修改静态IP:192.168.65.121 ~ 126 架构图 集群节点分配 hadoop1 ZookeeperNameNode(active)Resourcemanager (active)hadoop2ZookeeperNameNode (standby)hadoop3ZookeeperResourceManager(standby)hado.原创 2020-06-01 21:25:45 · 1137 阅读 · 1 评论 -
第六章:基于Flink、Kafka实现海量数据的实时处理
实时分析Kafka简介他是一个MQ,作用:削峰平谷ActiveQM(6k)、RabbitMQ(1.2w) 适用与业务系统(对事务要求极高)ZeroMQ(25-50w)、Kafka(25-50w) 适用于大数据(对速度和吞吐量要求高,海量数据中,数据可能丢失,但对结果影响微乎其微)Kafka为发布/订阅模式。Kafka已经成为大数据业界主流。Flink简介Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink设计为在所有...原创 2020-05-23 12:24:54 · 6345 阅读 · 1 评论 -
第五章:基于Hive实现海量数据离线处理
Hive离线分析回顾业务流程准备搭建环境1.启动Hadoopstart-all.sh2.修改flume配置文件flume.propertiesa1.sources = r1a1.sinks = k1a1.channels = c1a1.sources.r1.type = avroa1.sources.r1.bind = 0.0.0.0a1.sources.r1.port = 22222a1.sources.r1.in...原创 2020-05-23 11:54:20 · 3006 阅读 · 0 评论 -
第四章:Hive
目录HiveHadoop在分布式数据处理中遇到的问题概述数据仓库安装初始化元数据库启动基础操作创建数据库创建表插入数据加载数据可能遇到的问题Hive启动不了Hive启动报错Safe mode元数据库的替换修改配置文件hive-site.xml导入驱动包开放mysql权限初始化元数据信息表的分类内部表和外部表内部表(托管表):MANAGED_TABLE外部表:EXTERNAL_TABLE内外部表的区别分原创 2020-05-19 20:15:47 · 2477 阅读 · 0 评论 -
第三章:Flume、项目重构实现日志数据自动收集保存
目录Flume重要概念Flume多级流动Flume的扇入扇出Flume的优势Flume的安装配置启动测试flume.properties详解练习案例Source练习avroSpooldirChannel练习Sink练习LoggerAvroHDFS集群部署案例练习多级扇入扇出项目、Flume、HDFS整合log4j和flume整合配置log4j.propertiesFlume和HDFS整合配置f原创 2020-05-19 18:22:02 · 3885 阅读 · 0 评论 -
第二章:Hadoop
目录Hadoop概述历史作用Hadoop的安装Hadoop版本介绍Hadoop 的安装有三种方式Hadoop伪分布式安装进入目录上传安装包并解压修改配置文件启动初始化启动停止测试HDFS详解NameNodeDataNodeBlockSecondaryNameNodeHDFS优点HDFS缺点HDFS细节NameNode、SecondaryNameNode如何工作?Block备份如何放置?HDFS基本S原创 2020-05-19 17:38:15 · 6862 阅读 · 0 评论 -
第一章:初识大数据、项目介绍、环境搭建
讲师:董长春企鹅:1097895173手机:15011003101大数据什么是大数据?简单来说大数据就是海量数据及其处理。大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产(资源)。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》[2]中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特...原创 2020-05-19 17:02:27 · 7662 阅读 · 1 评论