大数据
_Naive_
敲什么代码,睡觉不香吗?
展开
-
pyspark修炼手册(长期帖)
2020.03.31 在进行pyspark开发时,需要先安装hadoop、spark的环境,或者只安装spark环境即可。配置集群or单机环境都可以,在配置好环境后,不需要单独启动hadoop/spark,直接运行pyspark程序即可。 一个脚手架'''在win环境下,若出现了:py4j.protocol.Py4JError: org.apache.spark.api.pyth...原创 2020-03-31 10:54:44 · 311 阅读 · 0 评论 -
2020.02.20碎片梳理——关于大数据
https://wiki.mbalib.com/wiki/%E5%A4%A7%E6%95%B0%E6%8D%AE大数据实际应用的几个案例分析,有点意思ETL(Extract-Transform-Load)数据仓库技术ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据, ETL是BI(商业智能)项...原创 2020-02-28 22:37:04 · 109 阅读 · 0 评论 -
2020.01.22碎片梳理——关于大数据
对几种大数据技术进行了一次小小的整理,常见的有:Hadoop、Hive、Spark、HBase。Hadoop:一种文件系统,我觉得可以类比win(linux)下的NTFS、FAT等;文件系统是操作系统上用于明确存储设备或分区上的文件的方法和数据结构,也就是在存储设备上组织文件的方法。NTFS等相当于是在win(linux)下对操作系统中的数据进行底层组织,Hadoop则是类似的但抽象层次更高...原创 2020-01-22 18:24:04 · 270 阅读 · 0 评论 -
2020.01.12碎片梳理——关于大数据
关于大数据的一点梳理 最近梳理并重新审视了一下“大数据”。其实所谓大数据处理,就是利用工具对大型数据进行更快速的提取;其核心在于两点,一个是大量非结构化数据的存储,二是对非结构化数据的快速提取并形成结构化。 Hadoop其实简单理解就是一种文件系统,它提供了一种可以直接存储块状结构的底层文件系统结构;其中Hadoop中的Hive就是一种能够快速提取块状结构的工具。[在这里,也可以说是根据大...原创 2020-01-12 15:44:20 · 145 阅读 · 0 评论 -
Hadoop基本概念(一)
Hadoop中的一些基本概念对多个硬盘中的数据进行IO操作:需要解决硬盘故障问题(避免数据丢失)大多数分析任务需要结合多台机器共同更使用(MapReduce提出编程模型:该模型抽象出这些硬盘的IO问题并将其转换为对一个数据集(由键值对构成)的计算)Hadoop本身已经超出了批处理本身,而形成了一个庞大的生态。MapReduce更适合没有用户在现场等待查询结果的离线使用场景(查询需要...原创 2019-03-01 10:19:36 · 529 阅读 · 0 评论