大数据进阶中
文章平均质量分 71
hadoop,spark hive ,数据挖掘,数据可视化,爬虫,数据分析
Handoking
聚沙成丘。
展开
-
大数据经典算法——bit-map与bloom filter
明白了哈希的原理,bit-map就好说了。 bit-map的核心思想是:所谓的Bit-map就是用一个bit位来标记某个元素对应的Value, 而Key即是该元素。每一个bit空间都是存储单元,而不像整型数据,即便是int a =1,仍要占用32个字节的空间,当数据量很大时,就会造成严重的空间浪费。由此可见,bit-map可以极大的节省空间,但bit-map只能用来进行一些简单的操作,比如,查询...原创 2018-09-11 10:57:38 · 530 阅读 · 0 评论 -
大数据处理——双层桶
转载:http://diducoder.com/mass-data-topic-6-multi-dividing.html【什么是双层桶】 事实上,与其说双层桶划分是一种数据结构,不如说它是一种算法设计思想。面对一堆大量的数据我们无法处理的时候,我们可以将其分成一个个小的单元,然后根据一定的策略来处理这些小单元,从而达到目的。【适用范围】 第k大,中位数,不重复或重复的数字【基本原...原创 2018-09-12 18:13:23 · 377 阅读 · 0 评论 -
大数据处理——tire树
网上的资料较多,良莠不齐,特此找到了几篇讲的清楚,讲的有逻辑性的博文,记录下来,方便自己以后查阅 讲原理比较清楚的 https://www.cnblogs.com/moonandstar08/p/5525344.html 讲应用比较清楚的 http://dongxicheng.org/structure/trietree/ 面试题 https://blog.csdn.net/roney...原创 2018-09-12 18:24:02 · 646 阅读 · 0 评论 -
mongodb中文文本数据(新闻评论)预处理代码(python+java)
中文文本数据预处理Mongodb数据导出到txt文档将文件按行写入数组文本批量修改(加后缀等)Mongodb数据导出到txt文档#python# coding=utf-8from pymongo import MongoClient# 建立 MongoDB 数据库连接client = MongoClient('localhost', 27017)# 连接所需数据库,news为数据...原创 2018-10-24 15:55:04 · 781 阅读 · 0 评论 -
改进的中科院分词系统NLPIR代码(加入用户词典,去停用词,文件读写)+情感分析字典包+工具包+论文包
NLPIR分词,加入用户词典,去停用词,文件读写等优化的分词系统代码优化的分词系统代码原创 2018-10-24 17:20:03 · 2205 阅读 · 0 评论 -
Hadoop2.9+Hive3.0+Mysql8.0安装配置,看这一篇就够了
由于以上均是最新版本,网上以往的资料用起来几乎都有多少的错误,不少的错误真的会把人搞疯,近10篇博文结合我自己在外网上找到的一些方法,记录下来。 hadoop的安装推荐看这一篇:http://dblab.xmu.edu.cn/blog/install-hadoop/ 写配置文件的时候注意更改版本信息,我是在一台主机上进行的伪分布式配置。hive的安装与配置:http://dblab.xmu...原创 2018-07-26 20:54:26 · 12117 阅读 · 2 评论 -
spark——Shuffle模块详解
将数据打乱重新分配到不同节点上的过程就是shuffle。Shuffle的目的就是将具有共同的特征的数据汇聚在同一个节点上来处理,比如hadoop的reduce还有排序等作用。当然并不是所有的shuffle过程都有排序,甚至为了减少排序带来不必要的开销,spark最初的框架中用的Hash Based Shuffle Write就是这样设计的,没有排序。Hash Based Shuffle Wri...原创 2018-07-24 21:31:55 · 1081 阅读 · 0 评论 -
白话Spark——DAGScheduler,TaskScheduler,SchedulerBackend模块实现机制
用最简单的话说明白一件复杂的事情也是一种成就。 Scheduler任务调度器模块作为Spark的核心部件,涉及三个重要的类 1. org.apache.spark.scheduler.DAGScheduler 2. org.apache.spark.scheduler.SchedulerBackend 3. org.apache.spark.scheduler.TaskSchedule...原创 2018-07-19 21:11:34 · 3541 阅读 · 0 评论 -
spark实现詞频分析WordCount(python)
spark的安装配置见上一篇博文。 1.在spark的home目录下新建文件夹/usr/local/spark/mycode/wordcount #分别建mycode与wordcount2.在wordcount中新建程序test.py以及需要分析的文件word.txt如word.txt内容为:When you are old and grey and full of slee...原创 2018-07-18 21:47:27 · 1645 阅读 · 0 评论 -
spark安装与环境配置
1.安装spark 官网 http://spark.apache.org/downloads.html 考虑到spark之后要结合hadoop一起使用,所以下载和已经安装hadoop版本均兼容的spark (首先安装好hadoophadoop的安装:参考 http://dblab.xmu.edu.cn/blog/install-hadoop/ 选择伪分布式配置(因为我是单机运行,有集群...原创 2018-07-18 20:53:19 · 948 阅读 · 0 评论 -
白话Spark——Executor模块与RDD详解
1.RDD是什么 这个定义我看了几本书一堆博客后觉得这样写会更好理解也更贴切:RDD(弹性分布式数据集)提供了一种高度受限的共享内存模型,即RDD是只读的记录分区的集合,不能直接修改。每个RDD可以分成多个分区,每个分区就是一个数据集片段。简单说,RDD就是一种数据抽象。 2.怎么创建RDD 可以用内存中已经有的数据集,也可以用外部数据源。之后通过RDD的转换,从父RDD中衍生出新的RDD,...原创 2018-07-18 11:46:03 · 1617 阅读 · 0 评论 -
Spark运行机制与原理详解
先上图(自己画的有点丑) 这个就是Spark运行的基本流程图。 或者看这个图 可以看出Spark运行经过以下几个阶段: 1.用户编写好SparkContext,新创建的SparkContext连接资源管理器cluster manager,其实Spark的还有其他优秀的资源管理器可以用,比如Standalone,Apache Mesos,YARN等。资源管理器根据用户提交SparkC...原创 2018-07-17 20:47:26 · 5086 阅读 · 0 评论 -
handoop job工作运行的机制与原理详解
声明:本博文的图片来自于董西城《hadoop技术内幕》;HDFS原理以及MapReduce的简单原理请移步我之前的博客,也欢迎关注我的大数据专栏,这是我入门学习大数据的完整历程,欢迎提出建议以及知识交流。上图是hadoop MapReduce的作业生命周期图。 或者看一个更简单的图,下图是MapReduce的架构图 大致分为几个步骤: 第一个阶段:作业提交与初始化 用户通过cl...原创 2018-07-16 16:58:57 · 1468 阅读 · 0 评论 -
300字看懂的MapReduce原理
声明:本博文图片均出自网络,若侵权联系我删。作为hadoop中的核心部件,原创 2018-07-16 10:06:04 · 463 阅读 · 0 评论 -
HDFS原理——HDFS就是一个情报组织(3)
声明:本博文图片来自于网络,有关专业术语的标准解释参考《Hadoop权威指南》中文第二版。欢迎大家关注我的大数据专栏https://blog.csdn.net/column/details/23027.html 前两小节,皮了一下HDFS的结构以及读取数据的过程。这一趴,准备说说HDFS写入数据的过程。关于JAVA API的调用,我之后会补上,因为我只有理论是不够的,随后自己跑跑...原创 2018-06-26 21:50:30 · 190 阅读 · 0 评论 -
HDFS原理——HDFS就是一个情报组织(2)
声明:本博文图片来自于网络或者《Hadoop权威指南》,有关专业术语的标准解释参考《Hadoop权威指南》中文第二版。欢迎大家关注我的大数据专栏https://blog.csdn.net/column/details/23027.html 上一趴,简单的说明了这个情报组织的构成,客户端client,管理节点namenode,数据节点dataname。主要依靠namenode——datanam...原创 2018-06-13 15:44:25 · 187 阅读 · 0 评论 -
HDFS原理——HDFS就是一个情报组织(part1)
声明:本博文图片来自于网络,有关专业术语的标准解释参考《Hadoop权威指南》中文第二版。欢迎大家关注我的大数据专栏https://blog.csdn.net/column/details/23027.htmlHDFS作为Hadoop两大构成部分之一,是Hadoop自带的分布式文件系统,以流式数据访问形式来存储大文件。以下是HDFS的架构图 这个架构图,我认为完全可以将它看作一个间谍特工...原创 2018-06-08 20:17:38 · 350 阅读 · 0 评论 -
每周大数据论文(二)Data Mining with Big Data
日常声明:论文均来自于谷歌学术或者其他国外付费论文站,博主只是读论文,译论文,分享知识,如有侵权联系我删除,谢谢。同时希望和大家一起学习,有好的论文可以推荐给我,我翻译了放上来,也欢迎大家关注我的读论文专栏https://blog.csdn.net/column/details/23027.htmlData Mining with Big Data 作者:Xindong Wu, Xingqu...原创 2018-05-28 19:50:26 · 5497 阅读 · 2 评论 -
每周大数据论文(一)Data-intensive applications, challenges, techniques and technologies: A survey on Big Data
自以为读国外文献,总结记录新的思路,算法以及处理方法,总结文献内容,可以开拓视野,找出问题和创新点。记录下来也顺便告诉自己這篇论文讲的是什么,以备之后需要相关内容能快速翻阅到。也能和大家分享有关文献,需要此文献的留言邮箱,之后发给你们。文章来源:Information Sciences 作者:C.L. Philip Chen , Chun-Yang Zhang“This paper ...原创 2018-05-25 09:04:22 · 7752 阅读 · 12 评论 -
【已解决】ERROR:"Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient"
状况:将hive的元数据库换为Mysql时发生的错误 配置:ubuntu16.04+hive3.0.0+mysql8.0.0 原因:换数据库时没有和hive成功通信。解决办法: 首先要确保你hive,mysql配置文件已经正确配置。正确的配置文件请看我的另一篇文章。安装与配置过程参考我的这篇文章https://blog.csdn.net/handoking/article/details...原创 2018-08-03 14:57:14 · 18426 阅读 · 3 评论 -
【已解决】org.apache.hadoop.hive.metastore.HiveMetaException: Schema initialization FAILED!
原因:其实之前你已经初始化过了,后来你更改了hive或者MySQL的配置文件后,导致他们之间无法通信。再进行初始化时就会发生这样的错误。 你初始化的语句应该是:schematool -dbType mysql -initSchema解决办法:mysql dump -uUSER -pPASSWORD DBNAME > /tmp/my_backup.sql drop da...原创 2018-08-03 15:06:17 · 25916 阅读 · 4 评论 -
【已解决】org.apache.hadoop.hive.metastore.hivemetaexception: failed to get schema version.
在stackoverflow上查阅大量相关的问题后我发现,这个问题并不是各个中文博客上所说的版本太新的问题,归根结底是hive没有连上数据库。与ERROR:”Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient”这个错误解决方法一致。 解决办法: 首先要确保你hive,mysql配...原创 2018-08-03 15:14:15 · 17530 阅读 · 2 评论 -
【已解决】caused by: com.mysql.cj.exceptions.cjcommunicationsexception: communications link failure
这个错误和之前博文中的错误原因一样,解决方法也一致。 解决方法请参考https://blog.csdn.net/handoking/article/details/81387721原创 2018-08-03 15:16:40 · 8300 阅读 · 0 评论 -
【已解决】FAILED: Illegal Argument Exception java.net.URISyntaxException: Relative path in absolute URI
原因:hive中配置文件没有正确配置 解决:针对这个问题,可以添加以下属性进去。你的配置文件应该是hive-site.xml。 请注意你的路径将下面的路径/var/develop/apache-hive-1.2.1-bin/iotmp替换掉。 hive+mysqlde正确的配置文件请参考我的相关博文。<property><name>hive.exec.local...原创 2018-08-03 15:23:26 · 2736 阅读 · 0 评论