- 博客(61)
- 收藏
- 关注
原创 Programming Hive ( Hive编程指南) 四
Chapter 6 HiveQL:查询--[root@master chapter5]# cat 4.create_employees.sql create table employees ( name string, salary float, subordinates Array<string>, ...
2019-05-30 13:06:11
276
原创 Programming Hive ( Hive编程指南) 三
Chapter5 HiveQL:数据操作5.1 向管理表中装载数据使用第四章的employees表:[root@master chapter5]# cat 4.create_employees.sql create table employees ( name string, salary float, subordinat...
2019-05-29 19:39:55
254
原创 Programming Hive ( Hive编程指南) 二
4.4.1 外部分区表创建分区表:create external table if not exists Chapter4..4log_messages ( hms int, severity string, server string, process_id int, message string )part...
2019-05-29 09:37:24
269
原创 Programming Hive ( Hive编程指南)
一、Hive中“一次使用的命令”1. -S表示静默模式,结果去掉OK和Time taken等行hive -e "select * from movie_table limit 3"...OKmovieId title genres1 Toy Story (1995) Adventure|Animation|Children|Comedy|Fantas...
2019-05-27 19:54:17
609
原创 HBase安装以及实践
1.安装2.shell操作3.python操作Hbase1)本地操作 a、创建表格 b、写数据 c、读数据2)集群操作4.Java操作Hbase(和Storm集合做实时推荐)1)本地操作1.安装1)打开配置文件bashrcvim ~/.bashrcexport HBASE_HOME=/usr/...
2019-05-27 11:06:17
321
原创 Hive实战下
实践一:Bucket数据集:create_rating_table_b.sql(创建bucket)create external table rating_table_b(userId INT,movieId STRING,rating STRING)clustered by (userId) into 32 buckets;创建userid movieid, ratin...
2019-05-26 16:52:00
426
原创 Hive实战
实战一:创建表数据集:movies.csv用,隔开,三列数据分别表示movie_id,movie_name,genres(电影id,电影名字,电影风格)数据集:rating.csv用,隔开,四列数据分别表示user_id,movie_id,rating,timestamp1.在hive根目录下命令行输入hive2.shell创建表HDFS创建目录:/hiv...
2019-05-26 14:52:59
606
原创 MySQL
CREATE TABLE courses(student VARCHAR(64) NOT NULL,class VARCHAR(20));INSERT INTO courses VALUES('A','Math');INSERT INTO courses VALUES('B','English');INSERT INTO courses VALUES('C','...
2019-05-16 22:24:36
182
原创 windows下MySQL安装
http://dev.mysql.com/downloads/mysql/下载windows版本,点击download;我选择放在D:\BigData目录下,进行解压,进入根目录D:\BigData\SQLServer\mysql-8.0.15-winx64,并配置环境变量;在根目录下创建data文件夹,并在根目录下创建my.ini文件,输入以下内容找到CMD...
2019-05-13 20:17:23
218
转载 在 Windows 上安装Spark(PySpark库)(无需安装 Hadoop )
1.需要预装 Anaconda ,推荐从清华镜像下载符合你机器配置的最新版。2.确保你的电脑已经安装好了 Java 7+ 。对了,Java 安装路径中不能有空格!路径中不能有空格!3.访问 Apache Spark 网站,下载 Apache Spark: 1. 选择一个 Spark 版本 (Choose a Spark release) 2. 选择软件包类型 (Choos...
2019-05-11 10:31:02
1189
原创 Spark算子
1.parallelize1.解释- 并行集合的创建(RDD)使用已经存在的迭代器或者集合通过调用spark驱动程序提供的parallelize函数来创建并行集合- 并行集合被创建用来在分布式集群上并行计算的。2.例子data = [1, 2, 3, 4, 5]distData = sc.parallelize(data)一旦创建RDD,RDD,就可以在集群上并行的去被操作。我...
2019-05-07 20:33:21
591
转载 169
169. Majority ElementGiven an array of size n, find the majority element. The majority element is the element that appears more than ⌊ n/2 ⌋ times.You may assume that the array is non-empty and th...
2019-04-04 00:52:03
183
转载 leetcode
分治算法基本思想:将问题分解为k个子问题,每个子问题相互独立且与原问题性质相同,求得子问题的解即可求得原问题的解。若子问题还较难以解决,就递归的分解子问题,直到可以找到简单的求解方法。53. Maximum Subarray Find the contiguous subarray within an array (containing at least one number) whic...
2019-04-04 00:50:26
113
转载 回归树
一、概念CART全称叫Classification and Regression Tree。首先要强调的是CART假设决策树是二叉树,内部结点特征的取值只有“是”和“否”,左分支是取值为“是”的分支,有分支则相反。这样的决策树等价于递归地二分每个特征。二、CART生成决策树的生成就是递归地构建二叉决策树的过程,对回归树用平方误差最小化准则,对分类树用基尼指数最小化准则,进行特征选...
2019-04-04 00:46:19
666
原创 leetcode
1.动态规划的基本思想动态规划算法与分治法类似,其基本思想也是将待求解问题分解成若干个子问题,先求解子问题,然后从这些子问题的解得到原问题的解。与分治法不同的是,适合于用动态规划求解的问题,经分解得到子问题往往不是互相独立的。若用分治法来解这类问题,则分解得到的子问题数目太多,有些子问题被重复计算了很多次。如果我们能够保存已解决的子问题的答案,而在需要时再找出已求得的答案,这样就可以避免大量的重...
2019-04-03 19:18:52
126
转载 leetcode
【题目】Given a set of candidate numbers (C) and a target number (T), find all unique combinations inCwhere the candidate numbers sums toT.Thesamerepeated number may be chosen fromCunlimited num...
2019-04-02 23:06:15
123
原创 leetcode
class Solution {public: void sortColors(vector<int>& nums) { int i = -1,j = -1,k = -1;//注意i,j,k的含义 int m; for(m = 0; m < nums.size();m++){ if(nu...
2019-04-01 21:41:59
108
转载 栈和队列
设计一个有GetMin功能的栈【题目】实现一个特殊的栈,在实现栈的基本功能的基础上,再实现返回栈中最小元素的操作【要求】1.pop、push、getMin操作时间复杂度都是O(1)2.设计的栈类型可以使用现成的栈结构【思路】使用两个栈,一个栈用来保存当前栈中的元素,期功能和一个正常的栈没有区别,这个栈记为stackData;另一个栈用于保存每一步的最小值,这个栈记为Stac...
2019-03-31 15:33:13
156
转载 线性回归——最小二乘法(一)
目标:本文详细将讲解单变量线性回归并写出使用最小二乘法(least squares method)来求线性回归损失函数最优解的完整过程,首先推导出最小二乘法,后用最小二乘法对一个简单数据集进行线性回归拟合;线性回归 线性回归假设数据集中特征与结果存在着线性关系; 等式:y = mx + c y为结果,x为特征,m为系数,c为误差 在数学中m为梯度c为截距 这个等式为我们...
2019-03-30 00:06:56
1307
转载 线性回归总结
一、机器学习的一些概念 有监督、无监督、泛化能力、过拟合欠拟合(方差和偏差以及各自解决办法)、交叉验证 监督学习: 数据 ===>结果(已提前知道),输入和输出之间有着一个特定的关系。1.1 监督学习分类: 案例:回归:结果是连续值(应用场景:房价预测)预测一个给定面积的房屋的价格就是回归问题。这里我们可以把价格看成是面积...
2019-03-29 12:40:41
1048
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅