spark源码分析只: job 全过程

为了研究生命周期,往往需要action触发Job的运行,以RDD的count操作为例来说明 def count(): Long = sc.runJob(this, Utils.getIteratorSize _).sum count命令实际上触发了SparkContext的runJ...

2015-04-30 21:33:49

阅读数:419

评论数:0

parquet列存储

why? 1,同一列数据的类型和“材质”是一致的,所以压缩起来更节省空间 2,在按列检索需求下,无需读取整行记录,I/O降低 3,当每一列类型相同时,通过编码能够更好的适应现代处理器分支指令集预测优化 message example as follow message Addres...

2015-04-30 21:30:32

阅读数:532

评论数:0

java cp 和 hadoop cp

java -cp "/opt/cloudera/parcels/CDH/lib/hbase/conf/:/opt/cloudera/parcels/CDH/lib/hbase/hbase-common.jar:/opt/cloudera/parcels/CDH/lib/hbase/hba...

2015-04-30 21:29:09

阅读数:408

评论数:0

部署微博自动爬取组件

#!/bin/bash THIS_PATH='/home/bigdata/script/weibo-userid' cd $THIS_PATH if [ -z "$1" ];then    echo "please input date,The dat...

2015-04-30 21:24:55

阅读数:351

评论数:0

maven配置scala环境

1,配置scala开发环境 maven配置:       org.apache.maven.plugins  maven-compiler-plugin  3.1    1.7  1.7  UTF-8        org.scala-tools  mave...

2015-04-30 21:16:39

阅读数:630

评论数:0

CSV数据导入Parquet表

1,执行sql获取csv文件 select * from ad.click where month = 201412 and referralpage like 'http://weibo.com%' 2,将csv文件上传到服务器local: /home/maoxiao/ad_w...

2015-04-30 21:14:53

阅读数:2110

评论数:0

RT 降维技术

一,特征选择法     1,用筛选器检测冗余特征         a,相关性分析             A,使用scipy.stat  pearson([1,2,3],[1,2,3,1]) 计算相关系数,返回相关系数值和p值,P越低则相关性系数越可信             B,弊端:只...

2015-04-30 21:13:56

阅读数:334

评论数:0

CK,KNN算法

测量不同特征值之间的距离方法 优点:精度高,对异常值不敏感,无数据输入设定 缺点:计算复杂度高,空间复杂度高 适用范围:数值型和标称型

2015-04-30 21:11:54

阅读数:312

评论数:0

CB,朴素贝叶斯和贝叶斯信念网络

1,朴素贝叶斯需要特征之间相互独立的强条件,制约了模型的适用 2,贝叶斯网络中的一个节点,如果它的父母节点已知,则它条件独立于它的所有非后代节点 3,每个节点附带一个条件概率表(CPT),表示该节点和父母节点的联系概率

2015-04-30 21:11:18

阅读数:566

评论数:0

CD,决策树

算法的核心问题: 1,按照什么样的次序来选择变量(属性)?     ID3:信息增益         ID3弊端:信息增益的方法倾向于首先选择因字数较多的变量     C4.5: 信息增益率                                  以个数为4,6,4的元祖为...

2015-04-30 21:10:50

阅读数:263

评论数:0

工程师的自我修养

1:团队精神和协作能力 把它作为基本素质,并不是不重要,恰恰相反,这是程序员应该具备的最基本的,也是最重要的安身立命之本。把高水平程序员说成独行侠的都是在呓语,任何个人的力量都是有限的,即便如linus这样的天才,也需要通过组成强大的团队来创造奇迹,那些遍布全球的为linux写核心的高手们,...

2015-04-30 21:09:46

阅读数:573

评论数:0

my.cnf解决中文乱码

[mysqld] default-character-set=utf8 character_set_server=utf8 init_connect='SET NAMES utf8' datadir=/var/lib/mysql socket=/var/lib/mysql/mysql.s...

2015-04-30 21:08:43

阅读数:703

评论数:0

CentOS快速安装mysql

1,查看CentOS自带mysql是否已安装。 输入:yum list installed | grep mysql 2,若有自带安装的mysql,如何卸载CentOS系统自带mysql数据库? 输入:yum -y remove mysql-libs.x86_64,若有多个依赖文件则...

2015-04-30 21:07:05

阅读数:304

评论数:0

2014个人总结

一,2014年技术工作回顾和技术经验?  a,技术工作回顾     1) 基本日志解析:开发md、vd日志解析程序以及mapreduce离线批处理程序。     2) visualVM监控hadoop集群、storm评估、sqoop数据导入导出。       3) aud项...

2015-04-30 21:05:15

阅读数:295

评论数:0

java Map 2 scala Map

import scala.collection.{JavaConverters, mutable}  val props: mutable.Map[String, String] =  JavaConverters.mapAsScalaMapConverter(DomainType2Code.p...

2015-04-30 21:03:07

阅读数:1634

评论数:0

solr-phoenix

1 , phoenix配置文档+demo-crud程序 2 , solr索引原理(一次性建立还是每次都建立,对值) 将HBase表中涉及条件过滤的字段和rowkey在Solr中建立索引,通过Solr的多条件查询快速获得符合过滤条件的rowkey值,拿到这些rowkey之后在HBASE中通过指定...

2015-04-30 21:02:34

阅读数:952

评论数:0

hive over hbase方式将微博用户数据导入hbase

1,创建hbase表WeiboUserData >> create 'WeiboUserData','CF' 2,创建hive->hbase外表logic_WeiboUserData,并对应hbase中的WeiboUser表 >> CREATE EXTERN...

2015-04-30 20:59:17

阅读数:335

评论数:0

hive over hbase方式将数据导出

CREATE EXTERNAL TABLE userData(rowkey string,UserId String, ProfileId int,ClientTimeHourPart int,ClientTimeDayOfWeekPart String,ServerTime String,Cou...

2015-04-30 20:57:02

阅读数:396

评论数:0

hive over hbase方式将文本库数据导入hbase

1,创建hbase表Corpus >> create 'Corpus','CF' 2,创建hive->hbase外表logic_Corpus,并对应hbase中的Corpus表 >> CREATE EXTERNAL TABLE logic_Corpus ( ...

2015-04-30 20:55:01

阅读数:315

评论数:0

sqoop数据导出导入命令

1,修改/etc/profile文件 export PATH=/usr/local/mysql/bin:$PATH export PATH=/opt/cloudera/parcels/CDH-5.0.0-1.cdh5.0.0.p0.47/lib/sqoop/bin:$PATH 2,使用sqo...

2015-04-30 20:52:22

阅读数:1196

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭