2015年09月_dabokele

原创 K-均值聚类算法(K-means)

K-means是一种无监督的学习,将相似的对象归到同一个簇中.可以将一批数据分为K个不同的簇,并且每个簇的中心采用簇中所含样本的均值计算而成. K-means算法的K值需要由用户指定,算法开始时随机选择K个初始点作为质心,然后将数据集中的每个点分配到一个簇中.那么,如何确定某一组数据归于哪个簇中呢?这是通过计算这一组数据与K个质心的距离来实现的,这组数据离哪个质心最近,就将其归于哪个

2015-09-25 16:55:21 3353

原创 Linux命令行快捷键

1,ctrl + a 跳至第一个字母,相当于home2,ctrl + e 跳至最后一个字母,相当于end3,ctrl + u 删除此处至最前面所有字符4,ctrl + k 删除此处至末尾所有字符5,ctrl + w 删除此处至左边单词(即到左边第一个空格为止)6,ctrl + d 删除当前选中字符7,c

2015-09-24 10:42:21 909

原创 Spark程序开发-环境搭建-程序编写-Debug调试-项目提交

1,使用IDEA软件进行开发.在idea中新建scala project, File-->New-->Project.选择Scala-->Scala2,在编辑窗口中完成WordCount程序的编写,完整程序如下:object WordCount { def main(args: Array[String]) { val conf = new Spark

2015-09-24 10:33:16 1785

原创 IDEA中运行KafkaWordCount程序

1,从spark的example中找到KafkaWordCount.scala文件复制到idea编辑器中,引入包:2,编辑configuration, (1)KafkaWordCountProducer 选择KafkaWordCount.scala中的KafkaWordCountProducer方法 VM options 设置为:-Ds

2015-09-24 10:31:49 2936 2

翻译分析比较KafkaWordCount及DierctKafkaWordCount

参考spark官方文档,Spark Streaming + Kafka Integration Guide,其中提到Spark Streaming如何从Kafka中接收数据.主要有两种方法,一种是使用Receivers的旧方法,另一种是不使用Receivers的新方法(从Spark 1.3才开始引入)1,Approach 1: Receiver-based Approach(基于Rec

2015-09-24 10:31:03 1570

原创 IDEA中运行DirectKafkaWordCount程序

1,将SPARK_HOME中的DirectKafkaWordCount程序复制到idea中.2,由于在KafkaWordCount中已引入相关jar包,此步可略过3,配置configurations参数关于program arguments参数,程序中定义如下:/** * Consumes messages from one or more topics

2015-09-24 10:30:31 2009

原创 Spark1.4从HDFS读取文件运行Java语言WordCounts

Hadoop：2.4.0Spark：1.4.0Ubuntu 14.01、首先启动Hadoop的HDFS系统。 HADOOP_HOME/sbin/start-dfs.sh2、在Linux中生成一个文件test.txt，保存在/home/testjars/目录下3、通过hadoop fs -put命令上传 hadoop fs -put

2015-09-24 10:22:41 2833

翻译 Spark SQL官方文档阅读--待完善

1,DataFrame是一个将数据格式化为列形式的分布式容器,类似于一个关系型数据库表.编程入口:SQLContext2,SQLContext由SparkContext对象创建也可创建一个功能更加全面的HiveContext对象,HiveContext是SQLContext的子类,从API中可以看出HiveContext extends SQLContext,所以能用SQL

2015-09-24 10:21:28 4100

原创 Sql表注释

1 创建表的时候写注释create table test1( field_name int comment '字段的注释')comment='表的注释'; 2 修改表的注释alter table test1 comment '修改后的表的注释'; 3 修改字段的注释alter table test1 modify column field_name int comment

2015-09-24 10:19:21 2410

原创 Ubuntu14.04安装配置星际译王词典

参考自:http://m.blog.csdn.net/blog/u014731529/25917149平常总会遇到一些不认识的单词，汉字等等。一直使用Chrome 浏览器的翻译插件，不过插件的翻译总是那么简单，复制了去查又太麻烦了。于是，就在软件中心找到了星际译王，装完我立马感觉到了译王的强大！星际译王有N多的词典，并且支持屏幕取词翻译，还有很多我还没

2015-09-24 10:17:37 1015

原创 Ubuntu中firefox设置成中文

进入http://ftp.mozilla.org/pub/mozilla.org/firefox/nightly按版本选择下去，帮助(help)-->关于,查看浏览器的版本号所以，目录是35.0.1-candidates/build1/linux-i686/xpi/选择其中的zh-CN.xpi，点击安装，重启火狐后，火狐就是中文界面了参考网站:h

2015-09-24 10:16:27 5779

转载 Linux中的查找命令find

原文:http://blog.csdn.net/windone0109/article/details/2817792查找目录：find /（查找范围） -name '查找关键字' -type d查找文件：find /（查找范围） -name 查找关键字 -print 如果需要更进一步的了解，可以参看Linux的命令详解。这里摘抄如

2015-09-24 10:15:43 516

原创 Ubuntu14.04安装配置Chrome浏览器

1.获取软件32位版本: wget https://dl.google.com/linux/direct/google-chrome-stable_current_i386.deb64位版本: wget https://dl.google.com/linux/direct/google-chrome-stable_curren

2015-09-24 10:14:58 2447

原创 Win7 Eclipse Hadoop2.4插件配置

准备工作： 1、下载hadoop2x-eclipse-plugin-master.zip Github地址：https://github.com/winghc/hadoop2x-eclipse-plugin 百度网盘地址：http://www.pan1234.com/result.jsp?wp=0&op=0&ty=gn&q

2015-09-24 10:12:24 537

原创 Ubuntu文件中文乱码

如图,该文件在gedit打开中文显示正常在命令行中用vim打开,显示内容如下:使用命令进行编码转换iconv -f gbk -t utf8 ./SogouQ.mini > ./sougou.data转换后vim中显示正常

2015-09-24 10:10:45 1270

原创 flume1.4.0 保存文件到hdfs错误调试

报错如下解决方案:将FLUME_HOME/lib目录下的jar文件,替换成HADOOP_HOME/share/hadoop/common/lib下版本更新的jar文件

2015-09-24 10:09:37 593

原创安装配置Kafka

1,下载kafka安装包,解压缩,tar -zxvf kafka_2.10-0.8.2.1.tgz2,修改/etc/profile文件,增加KAFKA_HOME变量3,进入KAFKA_HOME/config目录(1)修改server.properties文件broker.id=0host.name=master(在slave1中,master-->slave

2015-09-24 10:06:16 811

原创 Hive drop table卡住的问题

在hive中,show tables,create 等命令能正常执行,删除表drop table x时,会出现卡住的现象.进入mysql,show variables like 'char%'可以看到按理说是正确的.后面发现,是在建好hive数据库后,没有第一时间将character_set_database编码由utf8修改为latin1.而是去h

2015-09-24 10:04:25 8646

翻译 Spark MLlib数据类型

MLlib支持几种数据类型:本地向量(local vectors),和存储在一个简单机器中的矩阵(matrices),以及由一个或多个RDDs组成的分布式矩阵.1,本地向量(Local Vector) 一个本地向量是由从0开始的整型下标和double型值组成,存储在一个单机节点上.MLlib支持两种类型的本地向量:密集的和稀疏的.密集向量用一个double数组来存储值.而一个

2015-09-24 09:57:07 4346

原创 Spark Streaming + Flume整合官网文档阅读及运行示例

1,基于Flume的Push模式(Flume-style Push-based Approach) Flume被用于在Flume agents之间推送数据.在这种方式下,Spark Streaming可以很方便的建立一个receiver,起到一个Avro agent的作用.Flume可以将数据推送到改receiver.1),需求从集群中选择一台机器,当Flu

2015-09-23 15:56:30 2905

原创 Spark-streaming 连接flume

1,程序为spark的example中的FlumeEventCount示例object FlumeEventCount { def main(args: Array[String]) { StreamingExamples.setStreamingLogLevels() //val Array(host, IntParam(port)) = args val host

2015-09-23 14:17:22 1180

原创 Spark-SQL连接MySql关系型数据库

注意:程序中需要用到jdbc的jar包本程序中使用的是mysql-connector-java-5.1.29.jar1,从mysql数据库读取数据完整程序如下:import java.util.Propertiesimport org.apache.spark.sql.SQLContextimport org.apache.spark.{SparkContext, S

2015-09-23 11:58:09 8484 1

原创 Hadoop分布式存储系统HDFS

1、hadoop fs 指令-ls -ls 路径> 查看指定路径的当前目录结构-lsr -lsr 路径> 递归查看指定路径的目录结构-du -du 路径> 统计目录下个文件大小-dus -dus 路径> 汇总统计目录下文件(夹)大小-count -count [-q] 路径> 统计文件(夹)数量-mv -mv 源路径> 目的路径> 移动-cp -cp 源路径> 目的

2015-09-22 10:12:28 1451

原创 Hadoop-1.0.4伪分布安装与配置

1、采用伪分布模式安装将hadoop-****.tar.gz复制到linux的/usr/local目录下。2、解压，重命名 #tar -xzvf hadoop-1.0.4.tar.gz #mv hadoop-1.0.4 hadoop3、配置环境变量 vi /etc/profile，在文件java_home后添加，

2015-09-22 10:09:48 852

原创 CentOS配置

1、在Vmware中安装好虚拟机。2、客户机（即虚拟机中的centos）网络连接使用仅主机模式Host-only3、在主机中网络配置上，配置IP地址1、使用PieTTY远程连接该虚拟机2、使用winSCP可以用于主机，客户机之间的文件传递将该会话保存，就不需要每次进行设置。3、给linux安装jdk 使用winSCP将

2015-09-22 10:07:21 618

原创 win7 VMware CentOS桥接（bridge）模式网络配置

主要内容参考自：centos下vmware 桥接设置静态ip例子关于虚拟机网络配置的文章：Win7+VMware Workstation环境下的CentOS-Linux网络连接设置（推荐阅读）win7 访问本机的CentOS 6.3 上的web项目以及互相通信访问（ CentOS运行于本机VMware虚拟机中）Win7下虚拟机上Li

2015-09-22 10:03:31 5760

dabokele的博客