自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

千里码的博客

专注于大数据解决方案

  • 博客(9)
  • 收藏
  • 关注

原创 Sparksql处理json日志[要求sparksql统计json日志条数存入mysql数据库]

问题:要求sparksql统计json日志条数存入mysql数据库。环境:spark1.6.2,hadoop2.7.3,mariadb10.1.4,centos7数据处理环境:spark-shell  交互环境数据量:100以内的测试json数据集。存储位置:HDFS文件系统。最终目标:统计json日志条数并存入maridb问题解决步骤:[数据怎么获取这里滤过]

2017-01-13 21:47:13 1969

原创 R语言 分层抽样---分层随机抽样(SRS) strata的使用(一)

R语言 分层抽样---分层随机抽样(SRS) strata的使用

2015-10-17 00:47:04 29553 2

原创 【实战】使用Java结合Sendmail邮件服务器+Quartz开源框架定时发邮件

【实战】废话不多说,直接教你如何搭建以及使用,具体细节需要你自己细细品味。环境:Centos7,window10 64bit第一步: 搭建Sendmail邮件服务器。【不能在本地linux搭建,因为必须有外网,可以在阿里云上面搭建】1、安装sendmail(centos6.3下默认yum源,默认sendmail系统自带)yum install sendmail* -y

2017-02-15 15:43:51 2921 1

原创 Linux使用sendmail邮件监控[运维监控]

1、安装sendmail(centos6.3下默认yum源,默认sendmail系统自带)yum install sendmail* -y问题1:会遇到发邮件和启动很慢或者My unqualified host name (iZ23ole851hZ) unknown; sleeping for retry解决办法:vim /etc/hosts11.11.11.11 lo

2017-02-15 13:36:34 710

原创 使用spark-submit提交jar包到spark standalone集群(续)

继续上篇文章利用Intellij Idea在windows搭建spark 开发环境(含打jar包过程)(一) 以及Sparksql处理json日志[要求sparksql统计json日志条数存入mysql数据库]                         本章将把打好的jar提交到集群运行。[如何打jar 包请看上文第一篇] 环境:centos7,windows10,intelli

2017-01-16 21:53:28 7149

原创 利用Intellij Idea在windows搭建spark 开发环境(含打jar包过程)(一)

本文的目的:利用Intellij Idea在windows搭建spark 开发环境环境:windows 10, intellij idea2016.1.1, spark 1.6.2(HDP),hadoop2.7.3(HDP),scala 2.10.5(编译环境), sbt管理依赖背景:spark单点运算不能解决大数据的问题的时候,就需要使用spark-submit 调用jar包的方式分布式

2017-01-16 15:20:53 4785 1

原创 [sql统计] sql聚合count分母为单个值问题的解决方案

问题背景:数据库:mysql单个表:test_price。需求:需要统计表A中price的每个值的个数,比如1的个数,2的个数,并得出每个price的所占总数的百分比。问题思考:需要用到sql聚合.比如:count来计算price的个数。sum来每个price出现的总数。需要用到join,但是需要考虑是用cross join,还是inner join, left j

2017-01-13 20:26:30 1067

原创 R语言 分层抽样 strata (三),每层抽取80%

##本例子使用的是R自带的数据集irisirisData=iris ##重命名列names(irisData)=c("萼长","萼宽","瓣长","瓣宽","种类") ##处理后的数据格式如下所示:  >head(irisData, 3)      萼长 萼宽 瓣长 瓣宽 种类 1    5.1      3.5      1.4      0.2     

2015-10-18 17:38:37 13211 2

转载 [置顶]R语言 分层抽样---分层随机抽样(SRS)(二 )

############################################################自定义分层抽样函数:############################################################stratified                        replace = FALSE, bothSets =

2015-10-18 15:53:13 6472 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除