关山难越_谁悲失路之人-CSDN博客

原创我的小锦囊之Hadoop集群的启动命令以及经常遇到的小问题

每天启动Hadoop集群时都会打开这份txt文档，现在看来觉得这份文档才是精髓，看一眼，就能理一遍思路。如下的命令中，有启动Hadoop集群的，zookeeper集群的，hbase的，启动spark的，当然还有像Pig、Hive这些，直接输入就能进入。总之，如果没有下面这个文档，每天遇到一些问题可能会毛手毛脚，甚至可能因为睡得懵懵的而忘了启动路径....1.启动hadoop集群

2016-12-29 09:30:51 832

原创基于Spark MLlib平台和基于模型的协同过滤算法的电影推荐系统（三）作业里的拓展

20161205spark第四次作业使用Spark ALS explicit训练，得到模型，并进行评价；要求：1. 代码（只需要保留评价代码，建模代码，数据分割代码即可）；2. 相关图表（建模截图（包含参数）、评价截图、不同k值precesion、recall表格及图）；3. 测试数据集保留不超过10个用户即可；4. 不同模型对比（1，2，3再做一遍，对比，可选）

2016-12-24 21:21:32 1721

原创基于Spark MLlib平台和基于模型的协同过滤算法的电影推荐系统（二）代码实现

上接基于Spark MLlib平台和基于模型的协同过滤算法的电影推荐系统（一）1. 设置不打印一堆INFO信息（减少打印量保证Shell页面清晰干净） sc.setLogLevel("WARN")2. 导入相关recommendation包中相关类，加载数据，并解析到RDD【Rating】对象①导入相关recommendation包，

2016-12-24 21:15:43 2059

原创 flume流（二）如何在hadoop集群中安装flume流？（待补充图片）

二、如何在hadoop集群中安装flume流？1)将下载的flume包上传到/usr/local，解压到/usr/local目录中tar –zxvf apache-flume-1.6.0-bin.tar.gz -C /usr/localls后看到apache-flume-1.6.0-bin2)修改 flume-env.sh 配置文件,主要是JAVA_HOME变量设置

2016-12-24 21:09:39 602

原创法律网推荐(二) 用Pig进行数据预处理

上接法律网推荐(一) 用Hive进行数据探索分析 3）数据预处理 1. 数据清洗 2. 数据变换 3. 属性规约通过上述网址类型分布分析，后续分析中，选取其中占比最多的两类（咨询内容页、知识内容页）进行模型分析。可以发现一些与分析目标无关的数据清洗规则：实验内容：数据清

2016-12-24 21:06:00 1029

原创 flume流（三）如何用flume流从本地传输文件到hdfs？

flume流有三篇文章一、flume流是什么？.properties文件内部应该怎么写？二、如何在hadoop集群中安装flume流？三、如何用流从本地传输文件到hdfs？？本篇讲解如何用流从本地传输文件到hdfs？？1.新建/flume_data目录，在该目录下新建名为2014的文件夹，将law_utf8.csv文件放入flume_demo中，与2014文

2016-12-24 18:06:35 2016

原创基于Spark MLlib平台和基于模型的协同过滤算法的电影推荐系统（一）协同过滤算法概述&&基于模型的协同过滤的算法思想（算法模型和结构待补充）

本文基于Spark MLlib平台实现一个向用户推荐电影的简单应用。其中，主要包括三部分内容：一、协同过滤算法概述二、基于模型的协同过滤应用---电影推荐三、实时推荐架构分析一、协同过滤算法概述关于协同过滤的一个最经典的例子就是看电影，有时候不知道哪一部电影是我们喜欢的或者评分比较高的，那么通常的做法就是问问周围的朋友，看看最近有什么好的电

2016-12-24 16:53:02 2252

原创我为什么整理算法？

2016年12月21日我登录CSDN,看到CSDN对我说：编程中最没用的东西是源代码，最有用的东西是算法和数据结构。我决定把我知道的算法整理一下。

2016-12-21 12:12:48 399

原创我的2016

先写个题目，提醒自己记得写这个年终总结。

2016-12-15 14:59:50 240

原创 Pig Hive相关小问题学习网址

1.PageRank算法简介及Map-Reduce实现http://blog.jobbole.com/71431/2. pig学习笔记http://blog.csdn.net/shifenglov/article/details/385845273.Hive 学习笔记（三）http://blog.csdn.net/gg584741/article/details

2016-12-13 16:47:08 269

原创 Pig flume流配置文件

1)将下载的flume包上传到/usr/local，解压到/usr/local目录中tar –zxvf apache-flume-1.6.0-bin.tar.gz -C /usr/localls后看到apache-flume-1.6.0-bin2)修改 flume-env.sh 配置文件,主要是JAVA_HOME变量设置[root@master apache-flume-1

2016-12-13 16:46:20 295

原创 scala交互式操作 reduceByKey mapValues

scala> val c = sc.parallelize(List("aaa","b","b","c"))c: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[8] at parallelize at :21//做一个映射scala> c.map(x => (x,x.length))res7: org.ap

2016-12-13 16:44:55 8309

原创 scala_ALS

import org.apache.spark.mllib.recommendation._val data = sc.textFile("/root/cccc.txt").map(_.split(",") match {case Array (user,product,rating) => Rating (user.toInt,product.toInt,rating.toDouble)})

2016-12-13 16:44:20 599

原创 IDEA+MR实现ALS

1.环境导入spark-1.4.1-bin-hadoop2.6压缩包lib目录下的spark-assembly-1.4.1-hadoop2.6.02.IDEA代码package demoimport org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.mllib.recommenda

2016-12-13 16:42:29 694

原创 hadoop出错后如何查看logs 然后格式化

cd $HADOOP_HOME sbin/start-dfs.sh jpscd /data/cd cd $HADOOP_HOME lscd $HADOOP_HOMElscd logs/ls cat hadoop-root-namenode-master.centos.com.log tail -n 500 hadoop-root-namenode-ma

2016-12-13 16:40:30 1515

原创 ALS思路+代码（全）（待整理）

sc.setLogLevel("WARN")//设置不打印一堆INFO信息（减少打印量保证Shell页面清晰干净）一：导入相关recommendation包中相关类，然后加载数据，并解析到RDD【Rating】对象①导入包，recommendation._是导入recommendation包中全部的类scala> import org.apache.spark

2016-12-13 16:39:00 2364

原创 Centos6.7虚拟机配置Spark1.4.1（安装包链接待整理）

1. 通过xmanager的Xftp上传spark-1.4.1-bin-hadoop2.6.tgz文件到/usr/local目录2. 解压缩spark-1.4.1-bin-hadoop2.6.tgz文件tar -zxf spark-1.4.1-bin-hadoop2.6.tgz解压后即可，看到/usr/local/spark-1.4.1-bin-hadoop2.6文件夹

2016-12-13 16:37:56 387

原创用Hive+Hadoop集群实现《飞机票购买人群分类案例》思路+代码（实验数据待整理）

当今社会，事事存在竞争，航空公司也不例外。想要从林立的航空公司中立足，就要有稳定且增长的盈利。怎么保证这个盈利呢？这就要从营销策略上下手了，针对不同的客户采取不同的营销策略，才能保证最大的盈利。那怎么找出不同的客户群呢？这就是这篇文章首先要探索的。整体思路如下：1.根据航空公司的客户数据，对客户进行分类。 2.对不同的客户类别进行特征分析，比较不同类客户的客户价值。 3.对不同价值的客户类

2016-12-13 16:35:09 1801

原创 hive中日期与时间戳转换

从1970-01-01 00:00:00 UTC到指定时间的秒数。总结：时间戳到日期时间，日期时间到时间戳，日期时间到日期。获取时间戳：select distinct unix_timestamp() from test_date;时间戳>>>>日期：select distinct from_unixtime(1441565203,'yyyy/MM/dd HH:mm:

2016-12-13 16:34:17 140191

原创 hive_1.2.1安装及配置（相关安装文件待整理）

配置Hive:1）解压缩apache-hive-1.2.1-bin.tar.gz 文件，tar -zxf apache-hive-1.2.1-bin.tar.gz，这里解压在/opt目录下。2）配置Hive,进入/opt/apache-hive-1.2.1-bin/conf目录，cp hive-env.sh.template hive-env.sh，vi hive-env.sh，添

2016-12-13 16:31:39 533

原创用Pig实现sougou需求分析（差作业里的那一小段）

数据格式如下：20111230000005 57375476989eea12893c0c3811607bcf奇艺高清 1 1 http://www.qiyi.com/20111230000005 66c5bb7774e31d0a22278249b26bc83a凡人修仙传 31 http://www.booksky.org/BookDetail.aspx?BookID

2016-12-13 16:09:15 761

原创如何在Hadoop集群中配置Pig？（安装包连接待补充）

1. HADOOP集群：使用第4章的Hadoop集群2. 下载pig-0.15.0.tar.gz，解压到/usr/local目录下。tar –zxvf pig-0.15.0.tar.gz -C /usr/local3. 配置环境变量：export PIG_HOME=/usr/local/pig-0.15.0export PATH=$PIG_HOME/bin:$PATH

2016-12-13 16:03:35 393

原创十一Java作业按要求处理数据（代码待补充。。。）

给出数据源文件data.txt数据格式为：每行数据用逗号分隔代码要求：代码的美观性、易读性、复用性等尽量在代码中体现实现如下要求：1.按行抽取数据2.将文本中所有数据，进行去重操作，并输出去重后的数据个数3.将文本中的数值型数据，每行数据分别求和，输出结果4.将文本中的数值型数据按行进行排序，倒叙。输出结果5.将文本中的字符串型数据提取出来放

2016-12-13 15:59:00 248

原创 MySQL不太记得什么的笔记。。。待补充整理

RPC：远程过程调用序列化包：从内存序列化到硬盘的过程类似于java中类一次写入多次读取：mapreduce 规约键值把相同键的的值整合在一起/usr /usr的区别？？？是hodoop还是lINUXusr是user的缩写，是曾经的HOME目录，然而现在已经被/home取代了，现在usr被称为是Unix System Resour

2016-12-13 15:46:12 206

原创 SQL练习 demo8_子查询

[子查询(嵌套查询): 将某个查询作为再查询的数据来源。即：将某个查询作为一张表来看待。]1、在emp表中，哪个员工的工资最高。SQL>select ename, sal from emp where sal = (select max(sal) from emp );2、在emp表中，哪些员工的工资高于平均工资。SQL>select ename, sal

2016-12-13 15:44:23 325

原创 SQL练习 demo7_表自连接查询

1、从emp表中查找每个员工对应的经理人是谁并要求按经理人排序。SQL>select e1.ename 员工, e2.ename 对应的经理人 from emp e1, emp e2 where e1.mgr = e2.empno order by 对应的经理人;

2016-12-13 15:43:34 406

原创 SQL练习 demo6_group by_having分组约束的应用

[group by中采用having来添加条件]1、将各部门的平均薪水找出来。SQL>select avg(sal), deptno from emp group by deptno;2、将平均薪水大于2000的部门找出来。先按部门分组SQL>select avg(sal), deptno from emp group by deptno;

2016-12-13 15:41:54 438

原创 SQL练习 demo5_function_大小平均总和及统计等主函数

1、查看emp表中最高的薪水。SQL>select max(sal) from emp;2、查看emp表中最低的薪水是多少。SQL>select min(sal) from emp;3、查看emp表中平均薪水是多少。SQL>select avg(sal) from emp;4、查看emp表中平均薪水是多少并按指定格式显示。SQL>select t

2016-12-13 15:41:01 370

原创 SQL练习 demo4_order_by_排序

2、查看dept部门表中的所有记录SQL>selec * from dept;3、按部门编号升序排列[默认asc为升序]SQL>select * from dept order by deptno;再按部门编号降序排列SQL>select * from dept order by deptno desc;4、先无序查看emp表中所有记录，再按员工编号

2016-12-13 15:40:07 476

原创 SQL练习 demo3_where_条件查询与运算符

5、查看emp表中薪水大于1500的记录所有信息。SQL>select ename, sal from emp where sal > 1500;6、查看emp表中姓名等于CLARK的记录信息。SQL>select * from emp where ename = 'CLARK';7、查看emp表中部门编号不等于10的记录所有信息。SQL>select enam

2016-12-13 15:38:23 709

原创 SQL练习 demo2_select_distinct查询语句

1、查看emp表中所有员工所在的部门情况SQL>select deptno from emp;2、去掉1、中重复的部门SQL>select distinct deptno from emp;3、当部门编号和工作组合后，有重复的就去掉。SQL>select distinct deptno, job from emp;

2016-12-13 15:37:25 345

原创 SQL练习 demo1_select_查询语句

1、查询emp表中所有记录的雇员编号，雇员姓名，部门编号；SQL>select empno, ename, deptno from emp;[数学表达式的应用]2、查询emp表中所有雇员的年薪；SQL>select ename, sal*12 from emp;3、以emp表为基础计算并查看2*3表达式的值。SQL>select 2*3 from e

2016-12-13 15:36:22 402

原创 inux安装Mysql步骤+Navicat Premiun连接虚拟机mysql+mysql常用命令集+mysql常用操作

一、Linux安装Mysql步骤:1.yum install -y mysql-server mysql mysql-devel 安装mysql2.service mysqld start 启动mysql3.mysqladmin -u root password 'root' 设置MySQL用户名和密码4.mysql -uroot -p 登录MySQL

2016-12-13 14:33:08 541

原创如何在Linux中安装Mysql？

Linux安装Mysql：方式一，在线安装：1）yum search mysql2) yum install mysql-server.x86_64 -y方式二，离线安装：1）下载MySQL-server-5.6.28-1.el6.x86_64.rpm，MySQL-client-5.6.28-1.el6.x86_64.rpm，MySQL-devel-5.6.

2016-12-13 14:31:58 304

原创 Linux操作练习 demo

201311639李爽2016/9/6 中作业Linux1.进入/tmp目录，创建mytest目录，在其下创建两个目录dir1，dir2；$cd /tmp$mkdir mytest$cd /tmp/mytest$mkdir dir1 dir2$ls2.把/etc/passwd文件拷贝到/tmp/mytest目录中，再次拷贝使用-i选项看是否会有提示；

2016-12-13 14:29:17 2755

原创？？？？待完善找不到题目要求了

要求按一下步骤执行：操作命令如下：1.cd /tmp;mkdir vitest;2.cd vitest;3.cp/etc/man.config .;4.vi man.config;5.:set nu;6.58G;40l; 双引号中看到的是"/dir/bin/foo"7. gg /bzip2 答

2016-12-13 14:26:02 244

原创 Linux操作练习 demo(待完善)

head -n -2 lishuang.txt |tail -n +5第一步是把无关文字全掉sort -n -k 2 -t ‘ ’ lishuangshuang.txt以第二列排序-r反序

2016-12-13 14:25:24 243

原创请执行命令取出linux中eth0的IP地址

2016/9/6作业1.昨天交的作业：ifconfig eth0|grep "inet addr"|awk '{print $2}'|awk-F:'{print $2}'shell命令获取linux下eth0的IP地址，用到的命令有ifconfig、awk、grep。2.网上找到的更全的！！！简直感动！！！请执行命令取出linux中eth0的IP地址

2016-12-13 14:24:08 2201

原创 Shell启动时可添加的可爱图案~

( ) (@@) ( ) (@) () @@ O @ O @ (@@@) ( ) (@@@@) ( ) ==== ________ _____

2016-12-13 14:21:24 1108

原创 Linux操作小练习 demo

3. 完成1. 使用root用户建立/tmp/test目录；su rootmkdir /tmp/test2. 使用tom用户进入/tmp/test目录，并在其下建立文件夹{a~z}{1~100};su tomcd /tmp/testmkdir {a~z}{1~100}如果建立不了，则把/tmp/test的所属用户及用户组改为tom；3. /t

2016-12-13 14:18:44 508

空空如也

空空如也