2019年04月_SunnyRivers

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创为什么Spark比MapReduce快

前言边上的实习生问了这样一个问题：无论什么数据都必须得加载到在内存中计算，为什么Spark就比MapReduce快那么多？先上一幅Spark官网的图：在官网这张图里隐隐约约的看到一个词：DAG使用最先进的DAG程序——这一句话已经告诉我们速度提高100倍的关键原因（当然后面写的查询优化器和物理执行引擎也是一部分原因），好了，实习生的问题已经解决了简要说明Spark对速度的最大声...

2019-04-29 13:18:37 1902

原创 Hive导入和导出数据

Hive导入数据（1）从本地文件导入load data local inpath 'test.txt' into table test;（2）从HDFS导入load data inpath '/data/test.txt' into table test;（3）从Hive表导入insert into table test partition (date) select id, n...

2019-04-28 21:24:10 911 1

原创编译型语言和解释型语言

前言旁边一小伙问：python为什么比c运行效率低？我说：python是解释型语言小伙问：啥是解释型语言？…概念编译型语言解释型语言度娘的解释已经相当全面了简单概括两个语言最终都必须转换为二进制代码（机器语言）编译型语言在运行前就有一个编译的过程，运行的时候不需要重新编译，所以效率高解释型语言在运行时才开始翻译为机器语言，每执行一次就得翻译一次，因此效率低后记上面来自度...

2019-04-17 15:02:10 203

前言很早之前写过Python基于Windows系统的安装，写的比较简单，现在重新整理一下基于Windows和Linux系统安装Python。现在Python已经到3.7.4版本，但是一般不要轻易使用最新版本作为生产环境，不然可能会浪费太多的时间来解决bug，这里选择3.6.4Windows下安装Python这里以Windows 10操作系统为例，演示如何在Windows系统下安装Python...

2019-04-17 14:23:11 372

原创 Anaconda不同平台的安装方式

前面已经写过关于Anaconda的简介和基于Windows的安装，接下来将三个平台安装的的方式都做个简单总结简介Anoconda是不错的选择，专门用于科学计算的Python发行版，支持Windows、Linux和Mac系统，可以很方便地解决多版本Python并存、切换以及各种第三方模块安装的问题。更重要的是，当你下载并安装好Anoconda后，它就已经集成了上百个科学计算的第三方模块，例如书中...

2019-04-16 10:19:23 708

原创大数据分析项目生命周期

前言这里说的分析是狭义上的数据分析，并不包含数据挖掘，它们之间具体的区别后续文章会详细描述这里只做一个简单的总结如下表：差异角度数据分析数据挖掘定义描述和探索性分析，评估现状和修正不足技术性的“采矿”，发现未知的模式和规律侧重点实际的业务挖掘技术的落实，完成“采矿”过程技能统计学、数据库、Excel、可视化等过硬的数学功底和编程技术结果需...

2019-04-12 23:36:04 7458

原创 Spark将数据写入Mysql

前言我在很早之前用spark读取本地文件然后使用如下代码将数据写入到mysqldf.write.format("jdbc") .mode(SaveMode.Append) .option("url", "jdbc:mysql://localhost:3306/spark") .option("dbtable", "unisk") .option(...

2019-04-12 11:00:01 7973 3

原创如何在Windows环境下使用PyCharm开发PySpark

1.安装Python环境Windows搭建python环境请参考2.安装Spark环境官网下载spark并解压3.配置Windows环境HADOOP_HOME:D:\bigdata\hadoop-2.8.4SPARK_HOME:D:\bigdata\spark-2.3.1-bin-hadoop2.7PATH:%SPARK_HOME%\bin;%HADOOP_HOME%\bin;4...

2019-04-03 11:20:22 678