大数据云计算
文章平均质量分 73
siyuchen1
这个作者很懒,什么都没留下…
展开
-
HDFS、MapReduce设计概念、基础架构、Python代码实现、常用命令(一)
一、HDFS全称Hadoop DISTRIBUTED FILE SYSTEM,简称HDFS,是一个分布式文件系统。它是谷歌的GFS提出之后出现的另外一种文件系统。它有一定高度的容错性,而且提供了高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS 提供了一个高度容错性和高吞吐量的海量数据存储解决方案。在最初,HADOOP是作为Apache Nutch搜索引擎项目的基础架构而开发的,后来由于它...原创 2018-03-07 16:27:52 · 278 阅读 · 0 评论 -
聊天机器人——chatBot知识框架
Generative-Based:IT语料库加电影对白语料库,通过简单的案例,把IT所有知识,强AI形式,目前还没有被攻克,不错的paper:ACL会议,主题是使用了一堆词条,假设可以涵盖了社会的方方面面的知识,维基百科,词条的形式进行分析,你问题都以维基百科的知识回答;Retrieval-Based:闭合的场景,所有的问题基本都能想得到,Rules-Based,工业界很感兴趣,加入知识图谱中的动...原创 2018-04-22 20:59:42 · 2006 阅读 · 0 评论 -
图灵机器人——VQA模型的介绍
VQA的起源图灵测试:如果强AI,使你分辨不出是人还是计算机,完成了图灵测试。Eugene Goostman算法:模仿了乌克兰13岁小男孩,无法判断对方是人还是机器人,完成了首个可以pass 图灵测试。1、13岁2、乌克兰人3、英语可能也不好是不是有更好的测试,所以就有了新图灵测试的探讨:既然说图灵测试可以用作弊的方式解决,在这种情形下,产生了VQA:http://www.visualqa.org...原创 2018-04-22 22:42:31 · 1665 阅读 · 0 评论 -
大数据集群之——storm原理、基础知识
Storm基本知识 https://www.cnblogs.com/wuxiang/p/5629138.html1、一个Storm集群的基本组件storm的集群表面上看和hadoop的集群非常像。但是在Hadoop上面你运行的是MapReduce的Job, 而在Storm上面你运行的是Topology。它们是非常不一样的 — 一个关键的区别是: 一个MapReduce Job最终会结束...原创 2018-09-05 17:25:23 · 482 阅读 · 0 评论 -
HDFS、MapReduce设计概念、基础架构、Python代码实现、常用命令(二)
1、Namenode Namenode是整个文件系统的管理节点。它维护着整个文件系统的文件目录树,文件/目录的元信息和每个文件对应的数据块列表, 接收用户的操作请求。 文件包括: ①fsimage:元数据镜像文件。存储某一时段NameNode内存元数据信息。 ②edits:操作日志文件。 ③fstime:保存最近一次checkpoint的时间 以上这些文件是保存在linux的文件系统中...翻译 2019-02-27 17:13:52 · 284 阅读 · 0 评论 -
HDFS、MapReduce设计概念、基础架构、Python代码实现、常用命令(三)
咱们来看看对特别大的文件统计,整个过程是如何分拆的。大家想想词频统计的过程,如果是单机完成,我们需要做的事情是维护一个计数器字典,对每次出现的词,词频+1.但是当数据量非常大的时候,没办法在内存中维护这么大的一个字典,我们就要换一种思路来完成这个任务了,也就是我们所谓的map-reduce过程。大体的过程画成图是下面这个样子:大概是分成下面几个环节:map阶段主要完成key-valu...原创 2019-02-27 17:21:20 · 189 阅读 · 0 评论