Books易-CSDN博客

原创 Sparksql处理json日志[要求sparksql统计json日志条数存入mysql数据库]

问题：要求sparksql统计json日志条数存入mysql数据库。环境：spark1.6.2,hadoop2.7.3,mariadb10.1.4,centos7数据处理环境：spark-shell 交互环境数据量:100以内的测试json数据集。存储位置：HDFS文件系统。最终目标：统计json日志条数并存入maridb问题解决步骤：[数据怎么获取这里滤过]

2017-01-13 21:47:13 2050

原创 R语言分层抽样---分层随机抽样(SRS) strata的使用（一）

R语言分层抽样---分层随机抽样(SRS) strata的使用

2015-10-17 00:47:04 30089 2

原创【实战】使用Java结合Sendmail邮件服务器+Quartz开源框架定时发邮件

【实战】废话不多说，直接教你如何搭建以及使用，具体细节需要你自己细细品味。环境：Centos7,window10 64bit第一步: 搭建Sendmail邮件服务器。【不能在本地linux搭建，因为必须有外网，可以在阿里云上面搭建】1、安装sendmail（centos6.3下默认yum源，默认sendmail系统自带）yum install sendmail* -y

2017-02-15 15:43:51 3075 1

原创 Linux使用sendmail邮件监控[运维监控]

1、安装sendmail（centos6.3下默认yum源，默认sendmail系统自带）yum install sendmail* -y问题1：会遇到发邮件和启动很慢或者My unqualified host name (iZ23ole851hZ) unknown; sleeping for retry解决办法：vim /etc/hosts11.11.11.11 lo

2017-02-15 13:36:34 776

原创使用spark-submit提交jar包到spark standalone集群(续)

继续上篇文章利用Intellij Idea在windows搭建spark 开发环境(含打jar包过程）(一) 以及Sparksql处理json日志[要求sparksql统计json日志条数存入mysql数据库] 本章将把打好的jar提交到集群运行。[如何打jar 包请看上文第一篇] 环境：centos7,windows10,intelli

2017-01-16 21:53:28 7250

原创利用Intellij Idea在windows搭建spark 开发环境(含打jar包过程）(一)

本文的目的：利用Intellij Idea在windows搭建spark 开发环境环境：windows 10, intellij idea2016.1.1, spark 1.6.2(HDP),hadoop2.7.3(HDP)，scala 2.10.5(编译环境), sbt管理依赖背景：spark单点运算不能解决大数据的问题的时候，就需要使用spark-submit 调用jar包的方式分布式

2017-01-16 15:20:53 4893

原创 [sql统计] sql聚合count分母为单个值问题的解决方案

问题背景：数据库：mysql单个表：test_price。需求：需要统计表A中price的每个值的个数，比如1的个数，2的个数，并得出每个price的所占总数的百分比。问题思考：需要用到sql聚合.比如:count来计算price的个数。sum来每个price出现的总数。需要用到join，但是需要考虑是用cross join,还是inner join, left j

2017-01-13 20:26:30 1189

原创 R语言分层抽样 strata (三)，每层抽取80%

##本例子使用的是R自带的数据集irisirisData=iris ##重命名列names(irisData)=c("萼长","萼宽","瓣长","瓣宽","种类") ##处理后的数据格式如下所示： >head(irisData, 3) 萼长萼宽瓣长瓣宽种类 1 5.1 3.5 1.4 0.2

2015-10-18 17:38:37 13445 2

转载 [置顶]R语言分层抽样---分层随机抽样(SRS)（二）

############################################################自定义分层抽样函数：############################################################stratified replace = FALSE, bothSets =

2015-10-18 15:53:13 6694 1

千里码的博客