我的大数据
文章平均质量分 82
大竹薙子
这个作者很懒,什么都没留下…
展开
-
Day2.MongoDB学习笔记2
一、MongoDB副本集概要什么是MongoDB副本集?副本集是一组mongodb进程,它维护了同样的数据集。副本集提供了信息冗余和高可用,是所有生产部署的基础。客户端,读写操作主节点,然后将数据复制到副节点中。节点Primary Node 主节点,一个副本集只能有一个主节点,主要作用接受客户端所有写操作(默认情况下,也可以读取数据),并记录主节点操作日志,副节点复制主节点日...原创 2018-12-02 22:37:09 · 140 阅读 · 0 评论 -
Day3.Hadoop学习笔记1
零、概述一、概述Hadoop衍生自Nutch(搜索引擎和web爬虫),面临的问题:海量数据存储和计算Big Data大数据,谈的不仅仅是数据量,其实包含了数据量(Volume)、时效性(Velocity)、多样性(Variety)、可疑性(Veracity)Hadoop是一个开源存储和计算框架,HDFS大规模数据存储服务,MapReduce实现了对海量数据的并行处理和分析。...原创 2018-12-04 07:46:06 · 314 阅读 · 1 评论 -
准备的一些 "分布式" 相关问题 (分布式缓存、分布式锁、分布式session、分布式事务、分布式搜索、Dubbo与SpringCloud、分布式存储)
Dubbo的缺点,过分依赖zookeeper,就是过分依赖注册中心。在微服务中,应该做到各司其职,就是注册中心,服务网关,配置中心,三者不应该耦合度那么高。【与springcloud的对比:注册中心——Eureka、服务网关——Zuul、配置中心——SpringCloud Config】。微服务理应各个服务解耦,独立不相关的。Dubbo的容错策略,没有细粒度到方法级别上;负载均衡则可以...原创 2018-12-24 20:37:52 · 878 阅读 · 0 评论 -
Day13.高性能RPC设计 学习笔记1
一、引言系统架构演变随着互联网的发展,网站应用的规模不断扩大,常规的垂直应用(MVC)架构已无法应对,分布式服务架构以及流动计算架构(伸缩性)势在必行,亟需一个治理系统确保架构有条不紊的演进。图01单一架构:例如早期servlet/jsp - ORM(对象关系映射) Hibernate|MyBatis垂直架构:将一个应用分层,实现协同开发,便于后期项目升级维护 - MVC St...原创 2018-12-21 21:46:48 · 204 阅读 · 1 评论 -
Day14.高性能RPC设计 学习笔记2
一、通道选择器通道注册:需要使用Selector管理通道,然后将就绪的通道封装成SelectionKey对象。设置通道为非阻塞 ServerSocketChannel/SocketChannel#configureBlocking(false)注册通道ServerSocketChannel/SocketChannel#register(selector,事件类型[,附件信息])NIO...原创 2018-12-21 21:51:29 · 144 阅读 · 0 评论 -
Day15.高性能RPC设计 学习笔记3 - Netty
一、Netty引言基于NIO一款异步通讯框架,因为在使用上相比较Mina较为简单,开发门槛低导致了Netty在互联网开发中受到绝大多数商用项目成功验证,导致了Netty成为NIO开发的首选框架。“快速”和“简单”并不用产生维护性或性能上的问题。Netty 是一个吸收了多种协议的实现经验,这些协议包括 FTP,SMTP,HTTP,各种二进制,文本协议,并经过相当精心设计的项目,最终,Netty...原创 2018-12-21 21:54:09 · 186 阅读 · 1 评论 -
Day16.高性能RPC设计 学习笔记4 - Zookeeper(转载)
ZookeeperZooKeeper 是一个为分布式应用所设计的分布的、开源的协调服务。可以解决分布式应用中出现常规问题:同步配置、选举、分布式锁、服务命名分组,记住这些问题虽然zookeeper可以帮助用户解决,并不意味着用户不需要写代码。用户如果想使用zookeeper去解决以上出现的问题,需要用户巧妙利用Zookeeper的节点特性进行编程继而实现以上功能。【什么是分布式锁?在同一时刻...转载 2018-12-21 21:58:11 · 246 阅读 · 0 评论 -
数据平台 & 数据采集全流程刨析 & 面试准备tip - 20181227
数据平台为什么建设数据平台?当公司业务多元化,有多条业务线,如oms、wms、bms、tms、erp、oa十几种业务系统,导致需求变化多。数据生命周期:产生(业务系统库mysql,tms,日志存储),传输(中间件Kafka),入库(HDFS --> hive + hbase),'统计、分析、挖掘'(Spark、Flink)基础平台的稳定性。架构1.0版本初期...原创 2018-12-28 16:44:48 · 448 阅读 · 0 评论 -
Day9.ElasticSearch
一、引言什么是ElasticSearch?Elasticsearch是一个实时的分布式搜索和分析引擎。区别与Solr,它本身就是分布式的。ElasticSearch是一个基于Lucene的搜索服务器。ElasticSearch特点?(1)可以作为一个大型分布式集群(数百台服务器)技术,处理PB级数据,服务大公司;也可以运行在单机上(2)将全文检索、数据分析以及分布式技术,合并在了一起...原创 2018-12-12 11:09:30 · 148 阅读 · 1 评论 -
Day10.Kafka学习笔记
一、引言什么是消息?消息是系统间通信的载体,系统通讯(RPC)的介质,是分布式应用中不可或缺的一部分。目前系统间发送消息的方式有两种:①同步消息(即时消息),生产消费同时存在,必须建立会话;②异步消息(离线消息),生产不关心消费,不必建立会话,消费者自行消费。不同消息使用场景即时消息:打电话,表单提交,webservice(soap),dubbo/springCloud离线消息:...原创 2018-12-12 23:51:52 · 220 阅读 · 0 评论 -
Day9.HBase学习笔记2
一、[root@CentOS ~]# /usr/zookeeper-3.4.6/bin/zkServer.sh start zoo.cfgJMX enabled by defaultUsing config: /usr/zookeeper-3.4.6/bin/../conf/zoo.cfgStarting zookeeper ... STARTED[root@CentOS ~]# sta...原创 2018-12-12 23:49:34 · 162 阅读 · 0 评论 -
Day1.MongoDB学习笔记1 - 20181201
零、大数据引言什么是大数据,其本质是什么?①、数据的存储:分布式文件系统(分布式存储)②、数据的计算:分布式计算有两个大数据相关的技术Hadoop(基于java语言开发)和Spark(基于Scala语言,Scala基于java)大数据的基础和学习路线1)Java基础和Linux基础2)Hadoop的学习:体系结构、原理、编程①第一阶段:HDFS(存储:分布式文件系统)、Map...原创 2018-12-01 23:09:37 · 234 阅读 · 0 评论 -
Day5.Hadoop学习笔记3(偏向于实战)
零、回顾小TipsGoogle发表的一系列文章:GoogleFileSystem、MapReduce、BigTables、SpannerBigTables是Google设计的分布式数据存储系统,用来处理海量的数据的一种非关系型的数据库。Spanner(Spanner是谷歌公司研发的、可扩展的、多版本、全球分布式、同步复制数据库。它是第一个把数据分布在全球范围内的系统,并且支持...原创 2018-12-08 12:10:32 · 202 阅读 · 0 评论 -
Day6.Hadoop学习笔记4
一、MapReduce任务提交(前4步)(源码分析——前4步发生在client node 上)Job.java 从1292行 /** * Submit the job to the cluster and return immediately. * @throws IOException */ public void submit() throws...原创 2018-12-08 12:12:57 · 296 阅读 · 1 评论 -
Day7.Hadoop学习笔记5
零、了解推荐算法推荐算法算法是什么?我们可以把它简化为一个函数。函数接受若干个参数,输出一个返回值。推荐算法是计算机专业中的一种算法,通过一些数学算法,推测出用户可能喜欢的东西,多用于电商项目中。所谓推荐算法就是利用用户的一些行为,通过一些数学算法,推测出用户可能喜欢的东西。协同过滤协同过滤算法(Collaborative Filtering, CF)是很常用的一种算法,在很多电商网...原创 2018-12-08 12:16:48 · 261 阅读 · 0 评论 -
Day4.Hadoop学习笔记2
零、SSH密码认证流程一、HDFS架构简单了解HDFSHDFS借鉴了GFS的数据冗余度思想存在批量的硬盘;【DataNode 数据节点】HDFS默认冗余度为“3”,就是一份同样数据保存三份;利用“水平复制”提升上传效率;以“数据块”作为单位进行数据传输(1.x版本 64m、2.x版本 128m);存在一个“管理员”进行管控调度【NameNode 名称节点】HDFS区别其他...原创 2018-12-05 18:49:47 · 340 阅读 · 0 评论 -
Day8.HBase学习笔记1
一、回顾HDFS架构、MapReduce的11个步骤、InputFormat的理解、shuffle的过程、shuffle实战【面试题】hadoop在shuffle过程中经历了几次排序?3次,map端溢写,溢写合并,reduce合并NoSQL根据使用场景,分为四类:k-v型 redis、ssdb了解Redis 2.x/3.x/4.x/5.xSSDB基于磁盘,基于Google的Le...原创 2018-12-12 23:45:14 · 323 阅读 · 0 评论 -
Day8.MongoDB学习笔记3
一、SpringDataMongoDBSpringData家族成员之一,用于操作MongoDB的持久层框架,封装了底层的mongodb-driver导入依赖<dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-star...原创 2018-12-12 23:46:33 · 148 阅读 · 0 评论 -
Day10.ElasticSearch在docker中安装
一、容器的创建与远程连接下载镜像(此步省略)docker pull elasticsearch:5.6.8创建容器docker run -di --name=tensquare_elasticsearch -p 9200:9200 -p 9300:9300 elasticsearch:5.6.8浏览器输入地址:http://192.168.153.138:9200/ 即...原创 2018-12-12 12:42:38 · 221 阅读 · 0 评论