![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Data
文章平均质量分 61
thriving_fcl
这个作者很懒,什么都没留下…
展开
-
Hive连接MongoDB
Hive连接MongoDBHive上创建的表可以是HDFS-based,也可以是MongoDB-based。MongoDB-based的Hive表,其实就是一个将MongoDB collection的数据与Hive表的字段相关联的映射。原创 2016-05-21 17:11:01 · 8946 阅读 · 1 评论 -
MongoDB学习小记
MongoDB 学习笔记因为要处理一些数据,这两天学习了一下MongoDB,在此记录下一些对MongoDB粗浅的认识。直观认识MongoDB是NoSQL(Not Only SQL)数据库之一,之前用过Redis也属于NoSQL,不过两者的应用场景很不相同。Redis是内存型k-v数据库,作为缓存可以实现高效的存取,但是做不了复杂的查询与分析。MongoDB是持久化存储的,同时支持aggregate原创 2016-05-01 20:53:07 · 871 阅读 · 0 评论 -
MongoDB往Hive导数据
注:这里用Hive泛指数据仓库,数据还是存储在HDFS里。想要从MongoDB往Hive导数据主要有两种方式。原创 2016-09-11 12:31:53 · 8841 阅读 · 2 评论 -
MySQL导入Hive - DataX方案
MySQL导入Hive可以用sqoop或者dump到本地再load into的方式导入Hive。还有一种方式就是用阿里开源的DataX,试了一下还挺方便的。用sqoop经常会出现数据倾斜的情况,DataX暂时还没有遇见。要使用DataX只需要填写一个json格式的配置文件即可,整个安装和使用的方法参照官方给出的Quick Start即可。配置文件中,主要填写mysqlreader与hdfswrite原创 2017-08-16 22:03:51 · 11164 阅读 · 5 评论 -
Spark Partition
partition是spark rdd计算的最小单元。为什么是最小单元?先从分布式说起,分布式计算的特点就是批处理,将大量的数据分成若干批次,使得利用廉价机器搭建的集群也可以完成海量数据的计算。大量的数据分散在集群中的若干节点上,每个节点上的那部分数据,在执行计算的时候,又可以切分成若干份,每一份就是一个批次,也就是一个partition。spark计算的性能与partition的数量有很大的关系。原创 2017-09-23 18:21:27 · 4330 阅读 · 2 评论 -
Spark做词性标注遇到的问题及解决方法
在用spark做中文分词、词性标注的时候遇到了一些问题,记录一下场景及解决方法。原创 2017-09-25 21:29:58 · 1355 阅读 · 1 评论 -
Spark on YARN 笔记
一直对hadoop这套局限在会用就好,没有对hadoop生态有个系统性的深入了解,也就导致在用的时候出问题很难找到关键的原因,都得google so 各种找相关信息。所以现在觉得,还是得花一些时间,至少把与平时用到的相关部分的原理、概念理解清楚。只要是用hadoop生态的组件,很多都会用YARN来管理资源与任务分配。而资源分配的合理与否,直接关系到任务的执行效率,甚至决定成功或失败。spark又是现原创 2017-09-10 23:30:18 · 1410 阅读 · 0 评论