自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(16)
  • 资源 (2)
  • 收藏
  • 关注

原创 音乐推荐&Audioscrobbler数据集

本文内容来自(Spark高级数据分析)

2016-09-26 21:04:16 3919 1

原创 机器学习推荐系统架构图

勾勒一幅图

2016-09-24 21:40:27 3565

原创 mysql 的读写分离 以及mycat 实现集群管理

Mysql 的读写分离  与 DB2 中不同数据库(同库中的不同表也可以使用replication)的replication 是异曲同工db2 示例 ODS -----> DWDW table 1 ------> DW  table2Mysql 主从复制的几种方案从数据库的角度来说,从集中到分布,解决了存储的问题,带来了计算的瓶颈,SQL查询的瓶颈标准的读写分离是主从模

2016-09-24 21:31:18 728

原创 逻辑回归 评价推荐质量 计算AUC

有两个概念需要弄清楚:1 ROC2 AUCpackage org.apache.spark.mllib.classificationimport org.apache.log4j.Loggerimport org.apache.log4j.Levelimport org.apache.spark.mllib.regression.LabeledPointimport or

2016-09-24 20:17:25 2907

原创 垃圾邮件分类(Scala 版本)

import org.apache.log4j.{Level, Logger}import org.apache.spark.mllib.classification.LogisticRegressionWithSGDimport org.apache.spark.mllib.feature.HashingTFimport org.apache.spark.mllib.regression.

2016-09-21 22:18:18 907

原创 SQL 面试经典问题 行列互相转化

SQL 面试经典问题 行列互相转化 1.行转列select 姓名 as 姓名 ,max(case 课程 when '语文' then 分数 else 0 end) 语文,max(case 课程 when '数学' then 分数 else 0 end) 数学,max(case 课程 when '物理' then 分数 else 0 end) 物理from tbgrou

2016-09-20 21:28:25 2039

原创 逻辑回归(推荐系统)

import java.io.PrintWriterimport org.apache.log4j.{Level, Logger}import org.apache.spark.mllib.linalg.SparseVectorimport org.apache.spark.mllib.regression.LabeledPointimport org.apache.spark.rdd.

2016-09-17 20:45:31 3381 1

原创 KafKa常用命令

/software/kafka/kafka-0.9.0.1/bin/kafka-server-start.sh /software/kafka/kafka-0.9.0.1/config/server.properties &/software/kafka/kafka-0.9.0.1/bin/kafka-console-producer.sh --broker-list hadoop1:9092

2016-09-17 14:44:47 536

原创 机器学习重点与步骤

机器学习重点与步骤 1.找到数据集,训练集 & 测试集2.使用正确的机器算法3.保证高的可靠性

2016-09-14 21:24:49 365

原创 Sqoop 测试数据导入示例

1.import--connectjdbc:mysql://bigdatahadoop:3306/test--usernameroot--password123456--tablet_person--columnsid,name,age--where1=1--target-dir/sqoop/test1--delete-tar

2016-09-09 20:42:39 874

原创 java 链接mysql 产生500W数据模拟生成环境

java 插入数据到mysql 通过sqoop 导入到hive 中,kylin模拟见cube 时间和 数据膨胀率 kylin 数据插入到 HBaseKylinHBase 1.1.3Hive 1.2.1Hadoop 2.5.1create table infoagetime(prod_name char(10),prod_id SMALLINT,ods_date D

2016-09-09 20:33:22 1571

原创 Spark shuffle 优化

spark.shuffle.file.buffer默认值:32k参数说明:该参数用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小。将数据写到磁盘文件之前,会先写入buffer缓冲中,待缓冲写满之后,才会溢写到磁盘。调优建议:如果作业可用的内存资源较为充足的话,可以适当增加这个参数的大小(比如64k),从而减少shuffle write过程

2016-09-08 20:06:34 757

原创 spark-sql master on yarn 模式运行 select count(*) 报错日志

启动hive --service metastore启动 dfs yarn[root@bigdatastorm bin]# ./spark-sql --master yarn --deploy-mode client --driver-memory 512m --executor-memory 512m --total-executor-cores 1spark-sql

2016-09-05 22:30:19 4727 1

原创 Spark streaming 应用简单示例

Spark streaming 应用简单示例

2016-09-02 22:10:06 494

原创 Spark sql 简单示例

都这个点了,很多同事还没有到公司,得那我就简单写个spark sql 的示例 回顾而知新,孔老子明智package com.ib.e3import org.apache.spark.sql.SQLContextimport org.apache.spark.{SparkConf, SparkContext}/** * Created by xxxxoooo on

2016-09-02 09:54:58 1851

原创 spark中的Broadcast variables和Accumulator (广播变量和累加器)

同事都被老板叫去开会了 ....... 已经开了两个小时了 GOD 广播变量 broadcast这个变量只能在drive 端修改,不能在executor 端修改不产生shuffle 的 优化,但是需要这个RDD 数据量较小累加器 accumulator在executor 端读,在driver 显示 (已经代码保存到有道ing)package

2016-09-01 16:37:15 662

etl 数据加载

etl 数据加载etl 数据加载etl 数据加载etl 数据加载

2011-11-10

数据库

数据库

2011-11-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除