自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(46)
  • 收藏
  • 关注

原创 我的小锦囊之Hadoop集群的启动命令以及经常遇到的小问题

每天启动Hadoop集群时都会打开这份txt文档,现在看来觉得这份文档才是精髓,看一眼,就能理一遍思路。如下的命令中,有启动Hadoop集群的,zookeeper集群的,hbase的,启动spark的,当然还有像Pig、Hive这些,直接输入就能进入。总之,如果没有下面这个文档,每天遇到一些问题可能会毛手毛脚,甚至可能因为睡得懵懵的而忘了启动路径....1.启动hadoop集群

2016-12-29 09:30:51 832

原创 基于Spark MLlib平台和基于模型的协同过滤算法的电影推荐系统(三) 作业里的拓展

20161205spark第四次作业使用Spark ALS explicit训练,得到模型,并进行评价;要求:1. 代码(只需要保留评价代码,建模代码,数据分割代码即可);2. 相关图表(建模截图(包含参数)、评价截图、不同k值precesion、recall表格及图);3. 测试数据集保留不超过10个用户即可;4. 不同模型对比(1,2,3再做一遍,对比,可选)

2016-12-24 21:21:32 1721

原创 基于Spark MLlib平台和基于模型的协同过滤算法的电影推荐系统(二)代码实现

上接基于Spark MLlib平台和基于模型的协同过滤算法的电影推荐系统(一)1.  设置不打印一堆INFO信息(减少打印量 保证Shell页面清晰干净)  sc.setLogLevel("WARN")2.   导入相关recommendation包中相关类,加载数据,并解析到RDD【Rating】对象①导入相关recommendation包,

2016-12-24 21:15:43 2059

原创 flume流(二)如何在hadoop集群中安装flume流?(待补充图片)

二、如何在hadoop集群中安装flume流?1)将下载的flume包上传到/usr/local,解压到/usr/local目录中tar –zxvf apache-flume-1.6.0-bin.tar.gz -C /usr/localls后看到apache-flume-1.6.0-bin2)修改 flume-env.sh 配置文件,主要是JAVA_HOME变量设置

2016-12-24 21:09:39 602

原创 法律网推荐(二) 用Pig进行数据预处理

上接法律网推荐(一) 用Hive进行数据探索分析    3)数据预处理           1. 数据清洗           2. 数据变换           3. 属性规约通过上述网址类型分布分析,后续分析中,选取其中占比最多的两类(咨询内容页、知识内容页)进行模型分析。可以发现一些与分析目标无关的数据清洗规则:实验内容:数据清

2016-12-24 21:06:00 1029

原创 flume流(三)如何用flume流从本地传输文件到hdfs?

flume流有三篇文章一、flume流是什么?.properties文件内部应该怎么写?二、如何在hadoop集群中安装flume流?三、如何用流从本地传输文件到hdfs??本篇讲解如何用流从本地传输文件到hdfs??1.新建/flume_data目录,在该目录下新建名为2014的文件夹,将law_utf8.csv文件放入flume_demo中,与2014文

2016-12-24 18:06:35 2016

原创 基于Spark MLlib平台和基于模型的协同过滤算法的电影推荐系统(一) 协同过滤算法概述&&基于模型的协同过滤的算法思想(算法模型和结构待补充)

本文基于Spark MLlib平台实现一个向用户推荐电影的简单应用。其中,主要包括三部分内容:一、协同过滤算法概述二、基于模型的协同过滤应用---电影推荐三、实时推荐架构分析一、协同过滤算法概述   关于协同过滤的一个最经典的例子就是看电影,有时候不知道哪一部电影是我们喜欢的或者评分比较高的,那么通常的做法就是问问周围的朋友,看看最近有什么好的电

2016-12-24 16:53:02 2252

原创 我为什么整理算法?

2016年12月21日我登录CSDN,看到CSDN对我说:编程中最没用的东西是源代码,最有用的东西是算法和数据结构。我决定把我知道的算法整理一下。

2016-12-21 12:12:48 399

原创 我的2016

先写个题目,提醒自己记得写这个年终总结。

2016-12-15 14:59:50 240

原创 Pig Hive相关小问题学习网址

1.PageRank算法简介及Map-Reduce实现http://blog.jobbole.com/71431/2. pig学习笔记http://blog.csdn.net/shifenglov/article/details/385845273.Hive 学习笔记(三)http://blog.csdn.net/gg584741/article/details

2016-12-13 16:47:08 269

原创 Pig flume流配置文件

1)将下载的flume包上传到/usr/local,解压到/usr/local目录中tar –zxvf apache-flume-1.6.0-bin.tar.gz -C /usr/localls后看到apache-flume-1.6.0-bin2)修改 flume-env.sh 配置文件,主要是JAVA_HOME变量设置[root@master apache-flume-1

2016-12-13 16:46:20 295

原创 scala交互式操作 reduceByKey mapValues

scala> val c = sc.parallelize(List("aaa","b","b","c"))c: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[8] at parallelize at :21//做一个映射scala> c.map(x => (x,x.length))res7: org.ap

2016-12-13 16:44:55 8309

原创 scala_ALS

import org.apache.spark.mllib.recommendation._val data = sc.textFile("/root/cccc.txt").map(_.split(",") match {case Array (user,product,rating) => Rating (user.toInt,product.toInt,rating.toDouble)})

2016-12-13 16:44:20 599

原创 IDEA+MR实现ALS

1.环境导入spark-1.4.1-bin-hadoop2.6压缩包lib目录下的spark-assembly-1.4.1-hadoop2.6.02.IDEA代码package demoimport org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.mllib.recommenda

2016-12-13 16:42:29 694

原创 hadoop出错后如何查看logs 然后格式化

cd $HADOOP_HOME sbin/start-dfs.sh jpscd /data/cd cd $HADOOP_HOME  lscd $HADOOP_HOMElscd logs/ls cat hadoop-root-namenode-master.centos.com.log tail -n 500 hadoop-root-namenode-ma

2016-12-13 16:40:30 1515

原创 ALS思路+代码(全) (待整理)

sc.setLogLevel("WARN")//设置不打印一堆INFO信息(减少打印量 保证Shell页面清晰干净)一:导入相关recommendation包中相关类,然后加载数据,并解析到RDD【Rating】对象①导入包,recommendation._是导入recommendation包中全部的类scala> import org.apache.spark

2016-12-13 16:39:00 2364

原创 Centos6.7虚拟机配置Spark1.4.1(安装包链接待整理)

1. 通过xmanager的Xftp上传spark-1.4.1-bin-hadoop2.6.tgz文件到/usr/local目录2. 解压缩spark-1.4.1-bin-hadoop2.6.tgz文件tar -zxf spark-1.4.1-bin-hadoop2.6.tgz解压后即可,看到/usr/local/spark-1.4.1-bin-hadoop2.6文件夹

2016-12-13 16:37:56 387

原创 用Hive+Hadoop集群实现《飞机票购买人群分类案例》思路+代码 (实验数据待整理)

当今社会,事事存在竞争,航空公司也不例外。想要从林立的航空公司中立足,就要有稳定且增长的盈利。怎么保证这个盈利呢?这就要从营销策略上下手了,针对不同的客户采取不同的营销策略,才能保证最大的盈利。那怎么找出不同的客户群呢?这就是这篇文章首先要探索的。整体思路如下:1.根据航空公司的客户数据,对客户进行分类。 2.对不同的客户类别进行特征分析,比较不同类客户的客户价值。 3.对不同价值的客户类

2016-12-13 16:35:09 1801

原创 hive中日期与时间戳转换

从1970-01-01 00:00:00 UTC到指定时间的秒数。总结:时间戳到日期时间,日期时间到时间戳,日期时间到日期。获取时间戳:select distinct unix_timestamp() from test_date;时间戳>>>>日期:select distinct  from_unixtime(1441565203,'yyyy/MM/dd HH:mm:

2016-12-13 16:34:17 140191

原创 hive_1.2.1安装及配置(相关安装文件待整理)

配置Hive:1)解压缩apache-hive-1.2.1-bin.tar.gz 文件,tar -zxf apache-hive-1.2.1-bin.tar.gz,这里解压在/opt目录下。2)配置Hive,进入/opt/apache-hive-1.2.1-bin/conf目录,cp hive-env.sh.template hive-env.sh,vi hive-env.sh,添

2016-12-13 16:31:39 533

原创 用Pig实现sougou需求分析 (差作业里的那一小段)

数据格式如下:20111230000005 57375476989eea12893c0c3811607bcf奇艺高清 1 1 http://www.qiyi.com/20111230000005 66c5bb7774e31d0a22278249b26bc83a凡人修仙传 31 http://www.booksky.org/BookDetail.aspx?BookID

2016-12-13 16:09:15 761

原创 如何在Hadoop集群中配置Pig?(安装包连接待补充)

1. HADOOP集群:使用第4章的Hadoop集群2. 下载pig-0.15.0.tar.gz,解压到/usr/local目录下。tar –zxvf pig-0.15.0.tar.gz -C /usr/local3. 配置环境变量:export PIG_HOME=/usr/local/pig-0.15.0export PATH=$PIG_HOME/bin:$PATH

2016-12-13 16:03:35 393

原创 十一Java作业 按要求处理数据(代码待补充。。。)

给出数据源文件data.txt数据格式为:每行数据用逗号分隔代码要求:代码的美观性、易读性、复用性等尽量在代码中体现实现如下要求:1.按行抽取数据2.将文本中所有数据,进行去重操作,并输出去重后的数据个数3.将文本中的数值型数据,每行数据分别求和,输出结果4.将文本中的数值型数据按行进行排序,倒叙。输出结果5.将文本中的字符串型数据提取出来放

2016-12-13 15:59:00 248

原创 MySQL不太记得什么的笔记。。。待补充整理

RPC:远程过程调用 序列化包:从内存序列化到硬盘的过程 类似于java中类一次写入多次读取:mapreduce 规约 键值 把相同键的的值整合在一起/usr   /usr的区别???是hodoop还是lINUXusr是user的缩写,是曾经的HOME目录,然而现在已经被/home取代了,现在usr被称为是Unix System Resour

2016-12-13 15:46:12 206

原创 SQL练习 demo8_子查询

[子查询(嵌套查询): 将某个查询作为再查询的数据来源。即:将某个查询作为一张表来看待。]1、在emp表中,哪个员工的工资最高。SQL>select ename, sal from emp    where sal = (select max(sal) from emp );2、在emp表中,哪些员工的工资高于平均工资。SQL>select ename, sal

2016-12-13 15:44:23 325

原创 SQL练习 demo7_表自连接查询

1、从emp表中查找每个员工对应的经理人是谁并要求按经理人排序。SQL>select e1.ename 员工, e2.ename 对应的经理人 from emp e1, emp e2    where e1.mgr = e2.empno     order by 对应的经理人;

2016-12-13 15:43:34 406

原创 SQL练习 demo6_group by_having分组约束的应用

[group by中采用having来添加条件]1、将各部门的平均薪水找出来。SQL>select avg(sal), deptno from emp     group by deptno;2、将平均薪水大于2000的部门找出来。先按部门分组SQL>select avg(sal), deptno from emp    group by deptno;

2016-12-13 15:41:54 438

原创 SQL练习 demo5_function_大小平均总和及统计等主函数

1、查看emp表中最高的薪水。SQL>select max(sal) from emp;2、查看emp表中最低的薪水是多少。SQL>select min(sal) from emp;3、查看emp表中平均薪水是多少。SQL>select avg(sal) from emp;4、查看emp表中平均薪水是多少并按指定格式显示。SQL>select t

2016-12-13 15:41:01 370

原创 SQL练习 demo4_order_by_排序

2、查看dept部门表中的所有记录SQL>selec * from dept;3、按部门编号升序排列[默认asc为升序]SQL>select * from dept order by deptno;再按部门编号降序排列SQL>select * from dept order by deptno desc;4、先无序查看emp表中所有记录,再按员工编号

2016-12-13 15:40:07 476

原创 SQL练习 demo3_where_条件查询与运算符

5、查看emp表中薪水大于1500的记录所有信息。SQL>select ename, sal from emp where sal > 1500;6、查看emp表中姓名等于CLARK的记录信息。SQL>select * from emp where ename = 'CLARK';7、查看emp表中部门编号不等于10的记录所有信息。SQL>select enam

2016-12-13 15:38:23 709

原创 SQL练习 demo2_select_distinct查询语句

1、查看emp表中所有员工所在的部门情况SQL>select deptno from emp;2、去掉1、中重复的部门SQL>select distinct deptno from emp;3、当部门编号和工作组合后,有重复的就去掉。SQL>select distinct deptno, job from emp;

2016-12-13 15:37:25 345

原创 SQL练习 demo1_select_查询语句

1、查询emp表中所有记录的雇员编号,雇员姓名,部门编号;SQL>select empno, ename, deptno from emp;[数学表达式的应用]2、查询emp表中所有雇员的年薪;SQL>select ename, sal*12 from emp;3、以emp表为基础计算并查看2*3表达式的值。SQL>select 2*3 from e

2016-12-13 15:36:22 402

原创 inux安装Mysql步骤+Navicat Premiun连接虚拟机mysql+mysql常用命令集+mysql常用操作

一、Linux安装Mysql步骤:1.yum install -y mysql-server mysql mysql-devel 安装mysql2.service mysqld start 启动mysql3.mysqladmin -u root password 'root' 设置MySQL用户名和密码4.mysql -uroot -p 登录MySQL

2016-12-13 14:33:08 541

原创 如何在Linux中安装Mysql?

Linux安装Mysql:方式一,在线安装:1)yum search mysql2) yum install mysql-server.x86_64 -y方式二,离线安装:1)下载MySQL-server-5.6.28-1.el6.x86_64.rpm,MySQL-client-5.6.28-1.el6.x86_64.rpm,MySQL-devel-5.6.

2016-12-13 14:31:58 304

原创 Linux操作练习 demo

201311639李爽2016/9/6 中作业Linux1.进入/tmp目录,创建mytest目录,在其下创建两个目录dir1,dir2;$cd /tmp$mkdir mytest$cd /tmp/mytest$mkdir dir1 dir2$ls2.把/etc/passwd文件拷贝到/tmp/mytest目录中,再次拷贝使用-i选项看是否会有提示;

2016-12-13 14:29:17 2755

原创 ????待完善 找不到题目要求了

要求按一下步骤执行:操作命令如下:1.cd /tmp;mkdir vitest;2.cd vitest;3.cp/etc/man.config .;4.vi man.config;5.:set nu;6.58G;40l;  双引号中看到的是"/dir/bin/foo"7. gg   /bzip2   答

2016-12-13 14:26:02 244

原创 Linux操作练习 demo(待完善)

head -n -2 lishuang.txt |tail -n +5第一步是把无关文字全掉sort -n -k 2 -t ‘ ’ lishuangshuang.txt以第二列排序-r反序

2016-12-13 14:25:24 243

原创 请执行命令取出linux中eth0的IP地址

2016/9/6作业1.昨天交的作业:ifconfig eth0|grep "inet addr"|awk '{print $2}'|awk-F:'{print $2}'shell命令获取linux下eth0的IP地址,用到的命令有ifconfig、awk、grep。2.网上找到的更全的!!!简直感动!!!请执行命令取出linux中eth0的IP地址

2016-12-13 14:24:08 2201

原创 Shell启动时可添加的可爱图案~

(  ) (@@) ( )  (@)  ()    @@    O     @     O     @                     (@@@)                 (    )              (@@@@)            (   )        ====        ________                _____

2016-12-13 14:21:24 1108

原创 Linux操作小练习 demo

3. 完成1. 使用root用户建立/tmp/test目录;su rootmkdir /tmp/test2. 使用tom用户进入/tmp/test目录,并在其下建立文件夹{a~z}{1~100};su tomcd /tmp/testmkdir {a~z}{1~100}如果建立不了,则把/tmp/test的所属用户及用户组改为tom;3. /t

2016-12-13 14:18:44 508

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除