大数据&ML&DL
大数据相关、机器学习相关、深度学习相关
aa啊呀
这个作者很懒,什么都没留下…
展开
-
Hive 几个概念的理解
Hive中主要抱哈四类数据模型:表(Table),外部表(External Table),分区(Partition)和桶(Bucket)创建表的操作: 表创建和数据加载两个步骤(可在一个语句中完成),在数据加载过程中,实际数据会移动到数仓目录中,之后的数据访问将直接在数仓目录中完成,删除表时,表中的数据和元数据都会同时删除。创建外部表的操作: 只有一个步骤,...原创 2019-08-28 18:13:29 · 180 阅读 · 0 评论 -
Hadoop2.0 Federation 和 HA理解笔记
目录一、Federation:联盟HDFS的理解NameSpaces的理解二、HA:高可用HA架构一、Federation:联盟HDFS的理解HDFS主要由两部分组成: 1、Namespace: namespace包含目录、文件、块,它支持所有与命名空间相关的文件系统操作,例如创建,删除,修改和列出文件和目录 2、Block St...原创 2019-08-22 11:24:16 · 456 阅读 · 0 评论 -
Hadoop 2.0底层原理理解
Hadoop1.0面临的问题 HDFS存在的问题: Name Node 单点故障,难以引用于在线场景 Name Node压力过大,切内存受限,影响系统扩展性 MapReduce存在问题: JobTracker访问压力大,影响系统扩展性 不支持除MapReduce之外的其他计算框架Hadoop1.X与Hadoo...原创 2019-08-20 14:53:18 · 139 阅读 · 0 评论 -
MR分布式计算理论
MapReduce设计理念: 移动计算,而不是移动数据 两个阶段,Map / ReduceMap和Reduce之间的Shuffle、Partition、Combiner过程的理解 Shuffle过程:每个map task都有一个内存缓冲区,存储着map的输出结果,默认100MB(也可以通过设置配置文件中的参数mapreduce.task.io....原创 2019-08-19 18:14:05 · 478 阅读 · 0 评论 -
kafka实战笔记
kafka是如何保证高吞吐的kafka会将消息持久化到磁盘,但实际上每次操作都是将数据写入到系统的页缓存中,然后由系统自行决定什么时候将页缓存中的数据刷新到磁盘中, 这种设计带来的优势: 系统页缓存是在内存中分配的,消息写入速度非常快 kafka不直接与底层文件系统打交道,将繁琐的IO操作交给操作系统处理 ...原创 2019-08-15 15:50:39 · 116 阅读 · 0 评论 -
HBASE 常见操作命令
创建表create 'user','info','data' 创建表user,并指定列族info,data添加数据put 'user','rk0001','info:name','zhangsan' 向表user表中添加信息,row key 为rk0001,列族info中添加name列,值为zhangsanput 'user','rk0001','info:gender'...原创 2019-07-24 18:08:48 · 212 阅读 · 0 评论 -
HBASE单机版安装
HBASE下载地址:https://hbase.apache.org/downloads.html解压,注意要下载bin文件,不能是src文件修改 /conf下的hbase-env.sh文件,增加JAVA_HOME配置修改/conf下的hbase-site.xml 文件,增加一下内容,value为HBASE加压目录<property> <nam...原创 2019-07-24 15:47:31 · 135 阅读 · 0 评论 -
zookeeper的理解
zookeeper中的角色:1:领导者(leader) 负责进行投票的发起和决议,更新系统状态2:学习者 ①跟随者:Follower:接受客户端的请求并向客户端返回结果,在选举过程中参与投票 ②观察者:Observer:接受客户端的请求并像客户端返回结果,在选举过程中不参与投票。设置观察者的目的为了扩展系统,提高读取效率3:客户端 请...原创 2019-07-10 15:36:57 · 192 阅读 · 0 评论 -
hdfs搭建记录
修改hostname修改 /etc/sysconfig/network文件的HOSTNAME修改 /etc/hosts文件重启:shutdown -r now配置免密登录master节点需要登录node节点,需要配置ssh免密在每个节点执行命令ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa在master节点执行命令,将公钥...原创 2019-06-27 14:49:56 · 99 阅读 · 0 评论 -
大数据学习线路图-java转大数据
大数据学习线路https://blog.csdn.net/gitchat/article/details/78341484hdfs博客:https://blog.csdn.net/kezhong_wxl/article/details/76573901转载 2019-06-14 11:49:09 · 185 阅读 · 0 评论 -
【机器学习】贝叶斯算法原理
问题一:有两个不透明的袋子各有十个球,A袋子中有红球4颗,黑球6颗,B袋子中有红球2颗,黑球8个。那么分别从两个袋子中各自取出一个球,分别得到红球的概率?这是一个很简单的概率问题,我们很容易的算出来,A袋子中红球的概率是:0.4,B袋子中的红球的概率为:0.2为题二:有两个不透明的袋子各有十个球,A袋子中有红球4颗,黑球6颗,B袋子中有红球2颗,黑球8个。现在我取出了一个球,是红球,问这个...原创 2019-06-06 15:13:21 · 455 阅读 · 0 评论 -
【机器学习】蒙特卡罗模拟及python举例
蒙特卡洛模拟:使用随机数(或更常见的伪随机数)来解决很多计算问题的方法。蒙特卡洛(Monte Carlo)方法是由大名鼎鼎的数学家冯·诺伊曼提出的。原理是通过大量随机样本,去了解一个系统,进而得到所要计算的值。通过蒙特卡洛模拟计算圆周率π的值import numpy as npimport pandas as pdimport matplotlib.pyplot as plt...原创 2019-05-30 15:53:43 · 1812 阅读 · 1 评论 -
【机器学习】K-means算法及python实现
算法简介 K-means方法是聚类中的经典算法,数据挖掘十大经典算法之一;算法接受参数k,然后将事先输入的n个数据对象划分为k个聚类以便使得所获得的聚类满足聚类中的对象相似度较高,而不同聚类中的对象相似度较小。算法思想 以空间中k个点为中心进行聚类,对最靠近他们的对象归类,通过迭代的方法,逐次更新各聚类中心的值,直到得到最好的聚类结果。算法描述(1)适当选...原创 2019-05-29 20:10:37 · 392 阅读 · 0 评论 -
【机器学习】PCA主成分分析算法及python实现
回归:产生连续结果,可用于预测 分类:产生离散结果,可用于预测 聚类:产生一组集合,用于降维聚类分析:是将一组研究对象分为相对同质的群组的统计分析技术,常用到的聚类分析有PCA主成分分析,K-means分析PCA主成分分析通过线型变换将原始数据变换为一组各维度线性无关的表示,用于提取数据的主要特征分量,高维数据的降维主成分分析(Principal Components Anal...原创 2019-05-29 14:19:29 · 1728 阅读 · 0 评论 -
【TensorFlow】防止神经网络出现过拟合的最常见方法
防止神经网络出现过拟合的最常见方法:获取更多训练数据。 降低网络容量。 添加权重正则化。 添加丢弃层。具体解释以后了解深入了在补充原创 2019-05-28 15:38:02 · 542 阅读 · 0 评论 -
数据分析(机器学习)你应该掌握的几个概念
监督学习 通过已有的训练样本去训练得到一个最优模型,再利用这个模型将所有的输入映射为相应的输出, 监督学习更具输出数据又分为回归问题(Regression)和分类问题(Classfication),回归问题通常输出一个连续的数值,分类问题通常输出的是几个特定的数值。非监督学习 根据类别未知的训练样本解决模式识别中的各种问题,主要为聚类问题(Clust...原创 2019-05-25 21:06:53 · 146 阅读 · 0 评论