- 博客(9)
- 收藏
- 关注
原创 Sparksql处理json日志[要求sparksql统计json日志条数存入mysql数据库]
问题:要求sparksql统计json日志条数存入mysql数据库。环境:spark1.6.2,hadoop2.7.3,mariadb10.1.4,centos7数据处理环境:spark-shell 交互环境数据量:100以内的测试json数据集。存储位置:HDFS文件系统。最终目标:统计json日志条数并存入maridb问题解决步骤:[数据怎么获取这里滤过]
2017-01-13 21:47:13 1979
原创 【实战】使用Java结合Sendmail邮件服务器+Quartz开源框架定时发邮件
【实战】废话不多说,直接教你如何搭建以及使用,具体细节需要你自己细细品味。环境:Centos7,window10 64bit第一步: 搭建Sendmail邮件服务器。【不能在本地linux搭建,因为必须有外网,可以在阿里云上面搭建】1、安装sendmail(centos6.3下默认yum源,默认sendmail系统自带)yum install sendmail* -y
2017-02-15 15:43:51 2933 1
原创 Linux使用sendmail邮件监控[运维监控]
1、安装sendmail(centos6.3下默认yum源,默认sendmail系统自带)yum install sendmail* -y问题1:会遇到发邮件和启动很慢或者My unqualified host name (iZ23ole851hZ) unknown; sleeping for retry解决办法:vim /etc/hosts11.11.11.11 lo
2017-02-15 13:36:34 719
原创 使用spark-submit提交jar包到spark standalone集群(续)
继续上篇文章利用Intellij Idea在windows搭建spark 开发环境(含打jar包过程)(一) 以及Sparksql处理json日志[要求sparksql统计json日志条数存入mysql数据库] 本章将把打好的jar提交到集群运行。[如何打jar 包请看上文第一篇] 环境:centos7,windows10,intelli
2017-01-16 21:53:28 7168
原创 利用Intellij Idea在windows搭建spark 开发环境(含打jar包过程)(一)
本文的目的:利用Intellij Idea在windows搭建spark 开发环境环境:windows 10, intellij idea2016.1.1, spark 1.6.2(HDP),hadoop2.7.3(HDP),scala 2.10.5(编译环境), sbt管理依赖背景:spark单点运算不能解决大数据的问题的时候,就需要使用spark-submit 调用jar包的方式分布式
2017-01-16 15:20:53 4805 1
原创 [sql统计] sql聚合count分母为单个值问题的解决方案
问题背景:数据库:mysql单个表:test_price。需求:需要统计表A中price的每个值的个数,比如1的个数,2的个数,并得出每个price的所占总数的百分比。问题思考:需要用到sql聚合.比如:count来计算price的个数。sum来每个price出现的总数。需要用到join,但是需要考虑是用cross join,还是inner join, left j
2017-01-13 20:26:30 1090
原创 R语言 分层抽样 strata (三),每层抽取80%
##本例子使用的是R自带的数据集irisirisData=iris ##重命名列names(irisData)=c("萼长","萼宽","瓣长","瓣宽","种类") ##处理后的数据格式如下所示: >head(irisData, 3) 萼长 萼宽 瓣长 瓣宽 种类 1 5.1 3.5 1.4 0.2
2015-10-18 17:38:37 13261 2
转载 [置顶]R语言 分层抽样---分层随机抽样(SRS)(二 )
############################################################自定义分层抽样函数:############################################################stratified replace = FALSE, bothSets =
2015-10-18 15:53:13 6513 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人