大数据
文章平均质量分 67
小菜鸡一号
这个作者很懒,什么都没留下…
展开
-
ES的基础概念
为此,Elasticsearch允许你创建一个或多个拷贝,你的索引分片进入所谓的副本或称作复制品的分片,简称Replicas。例如,可以为客户数据提供索引,为产品目录建立另一个索引,以及为订单数据建立另一个索引。例如,您可以为单个客户提供一个文档,单个产品提供另一个文档,以及单个订单提供另一个文档。在这个索引中,您可以为用户数据定义一种类型,为博客数据定义另一种类型,以及为注释数据定义另一类型。在索引中,可以定义一个或多个类型。请注意,尽管文档物理驻留在索引中,文档实际上必须索引或分配到索引中的类型。原创 2022-11-29 17:06:37 · 2962 阅读 · 0 评论 -
【无标题】
python数据处理,将txt文件转换成csv原创 2022-04-15 21:11:34 · 543 阅读 · 0 评论 -
Zookeeper安装文档
1.下载Zookeeper安装包https://mirrors.tuna.tsinghua.edu.cn/apache/zookeeper/zookeeper-3.4.10/2.zookeeper集群规划主机名称 IP 部署软件node01 192.168.183.100 zookeepernode02 192.168.183.101 zookeepernode03 192.168.1...原创 2020-01-16 17:03:56 · 137 阅读 · 0 评论 -
CDH中MySQL的作用
CM底层自动部署安装数据库进行系统配置、schema等并进行相应管理。同时CM也支持使用外部数据库作为系统配置、数据表结构等的底层存储,具体支持的数据库包括:MySQL:5.1、5.5、5.6、5.7PostgreSQL:8.1、8.3、8.4、9.1、9.2、9.3、9.4Oracle:11gR2、12c一般来说外部元数据库都会采用系统自带的MySQL服务。 确保以下配置:...原创 2020-01-15 11:05:59 · 1138 阅读 · 1 评论 -
大数据发展
大数据vs人工智能人工智能需要有大数据支撑人工智能主要有三个分支:1.基于规则的人工智能;2.无规则,计算机读取大量数据,根据数据的统计、概率分析等方法,进行智能处理的人工智能;3.基于神经网络的深度学习。基于规则的人工智能,在计算机内根据规定的语法结构录入规则,用这些规则进行智能处理,缺乏灵活性,不适合实用化。因此,人工智能实际上的主流分支是后两者。而后两者都是通过“计算机读取大量...原创 2019-12-24 00:05:18 · 143 阅读 · 0 评论 -
画图
在这里插入图片描述原创 2019-12-03 21:23:55 · 84 阅读 · 0 评论 -
Mapreduce的进阶
Mapreduceshuffle过程:每个map task把输出结果写到环形缓冲区内,环形缓冲区的大小默认为100M.当内存环形缓冲区写入的数量达到一定的阈值时,后台线程会将数据溢写到磁盘(阈值默认为80) 根据partitioner,把数据写入到不同的partition 对每个partition的数据进行排序随着Map Task的不断运行,磁盘上的溢出文件会越来越多 ...原创 2019-11-11 18:34:53 · 212 阅读 · 0 评论