Spark
文章平均质量分 91
thy822
这个作者很懒,什么都没留下…
展开
-
SparkSQL相关语句总结
1.in 不支持子查询 eg. select * from src where key in(select key from test);支持查询个数 eg. select * from src where key in(1,2,3,4,5);in 40000个 耗时25.766秒in 80000个 耗时78.827秒2.union all/union不支持顶层的union转载 2017-06-19 18:52:29 · 555 阅读 · 1 评论 -
Hadoop on Yarn配置文档
目录 1软件配置文件基本信息... 1 2 安装Linux Centos6.9. 4 3 WinSCP Copy安装软件... 5 4克隆你的环境... 6 5免秘钥登录... 7 6格式化namenode,启动集群... 8 1软件配置文件基本信息软件列表:VMware-workstation-full-9.0.2-1031769.exe (虚拟机不能太老,发现7的话不能安装64位Centos...原创 2018-04-02 09:32:29 · 3064 阅读 · 0 评论 -
Hadoop on Yarn配置信息
core-site.xml<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration> <property> <name&am原创 2018-04-02 09:42:57 · 216 阅读 · 0 评论 -
Spark部署文档
目录 1 Local模式跑spark. 1 2配置Standalone模式... 1 3配置Standalone模式with HA. 2 4配置on YARN.. 2 5 安装MySQL. 4 6 安装Hive. 5 7修改spark源码并编译部署... 8 8 添加Spark读取hive元数据... 11 服务器角色 node21 node22 node23 node24 Jounra...原创 2018-04-02 09:51:32 · 551 阅读 · 0 评论 -
Intellij IDEA2017.3永久激活方法
随着idea不断地发展,eclipse的缺点日渐明显,为了能够获得良好的编码体验,越来越多的朋友转向了idea,淘汰了eclipse但是由于近期idea所有私人服务器被封杀了,很多喜欢编码的朋友们都陷入了一个问题,如何在不购买正品的情况重新激活自己的idea,小编也是个编程小白,但是很注重个人的代码体验,所以小编最近找到了一个新的方法,希望能够对大家有所帮助:1 下载idea,此步骤小编就不再做过...转载 2018-04-09 17:25:03 · 1991 阅读 · 0 评论 -
学习大数据的第一步-搭建Scala开发环境,以及使用Intellij IDEA开发Scala程序
1为什么要学习Scala语言2Scala简介3Scala在Windows系统上的安装及环境配置1安装Java下载JDK配置环境变量测试Java环境3安装Scala下载Scala配置环境变量测试Scala环境4使用Intellij IDEA写hello world1安装Intellij IDEA下载Intellij IDEA配置Intellij IDEA1、为什么要学习Scala语言?结合Spark...转载 2018-04-10 09:09:00 · 361 阅读 · 0 评论 -
新词发现及Java和spark实现
新词发现并不是一个新的课题,但最有意思的一点是如果采用无监督的算法,可以完全脱离人工的经验由算法自动找到有语意的“词语”,而不是胡乱拼凑的汉字片段(归因于算法的有效性和语料本身是由有意义的词语构成的)。本文参考了matrix67的一篇文章,互联网时代的社会语言学:基于SNS的文本数据挖掘,采用无监督方法来发现新词,基本原理就是通过N-gram找到可能的词,然后计算这些词的词频、紧密度和自由度,最终...转载 2018-04-10 13:23:33 · 354 阅读 · 0 评论