笔记
文章平均质量分 76
kanbuqinghuanyizhang
这个作者很懒,什么都没留下…
展开
-
大数据_hadoop_mr
流程这里列举最常见的wordcount示例,首先给出执行图例: 下面对mapreduce作业进行概述: 一个Map/Reduce 作业(job) 通常会把输入的数据集切分为若干独立的数据块,由 map任务(task)以完全并行的方式处理它们。框架会对map的输出先进行排序, 然后把结果输入给reduce任务。通常作业的输入和输出都会被存储在文件系统中。 通常计算节点和存储节原创 2018-01-20 16:11:15 · 1610 阅读 · 0 评论 -
机器学习_阅读笔记_决策树
决策树(decision tree)是一种基本的分类与回归方法,本文讨论分类决策树。它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。决策树的学习通常包括三个步骤:特征选择,决策树的生成和决策树的修剪。模型与学习模型 分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成。结原创 2018-01-07 11:49:59 · 714 阅读 · 0 评论 -
机器学习_阅读笔记_SVM
这里给出阅读的记录,后面把这些内容整理整理成一篇文章第一步:宏观概念支持向量机(SVM)是什么意思? 里提供了一些图片解释第二步:最优化公式推导阅读>第七章-支持向量机 7.1.3 间隔最大化 推导得到最优化公式 第三步:拉格朗日对偶算法首先理解拉格朗日乘子法 拉格朗日乘子法如何理解?介绍了基本的概念 拉格朗日乘子法 那些年学过的高数对知乎上部分回答的一原创 2018-01-16 19:27:42 · 207 阅读 · 0 评论 -
机器学习_阅读笔记_算法评估
样本量与误差样本量影响训练误差及验证误差。 总体情况是:样本量少的时候,训练算法基本都能正确拟合数据,所以样本量少的时候训练误差小,但泛化程度不好,对新样本的适应能力不好,所以样本量少的时候交叉验证的误差大。 当样本量增加是,训练很难对所有样本拟合,故样本量增大的时候训练误差增大,但算法拟合能力更强了,对新样本的适应能力强,所以样本量增大的时候交叉验证的误差减少。 如下示意图:原创 2018-01-16 15:28:21 · 533 阅读 · 0 评论 -
机器学习_阅读笔记_LR
定义 逻辑回归(Logistic Regression)与线性回归(Linear Regression)都是一种广义线性模型(generalized linear model)。逻辑回归假设因变量 y 服从伯努利分布,而线性回归假设因变量 y 服从 高斯分布。 因此与线性回归有很多相同之处,去除Sigmoid映射函数的话,算法就是一个线性回归。可以说,逻辑回归是以线性回归为理论支持原创 2018-01-15 23:44:35 · 300 阅读 · 0 评论 -
机器学习_阅读笔记_梯度下降
前言梯度下降法可以帮助我们找到某个函数的极小值或者最小值。这里先拿一个损失函数来说,假设损失函数如下: 我们最终的目的求参数θ0\theta_0θ1\theta_1使得损失函数对于给定的样本求得的值最小。θ0\theta_0、θ1\theta_1对应损失函数的图像关系类似一个碗状(bowl shape) 单个参数与损失函数的关系图类似于以下二维图: 我们发现:当θ\原创 2018-01-15 11:37:17 · 353 阅读 · 0 评论 -
机器学习_特征处理
内容来源于其他博客,这里做了个汇总,侵删。标准化归一化数据数据标准化是将数据按比例缩放,使之落入一个小的特定区间。去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上。归一化的作用: 1. 提升模型的收敛速度 如下图,x1的取值为0-2000,而x2的取值为1-5,假如只有这原创 2018-01-07 10:29:50 · 1269 阅读 · 0 评论 -
最大似然估计
最大似然估计简单的理解就是给定已知样本,推导出最有可能(最大概率)导致出现这样结果的参数值 先举个例子来说: 抛硬币80次,49次正面,31次反面,我们需要求出抛硬币为正面的概率p。那出现这个情况的概率为p49(1−p)31p49(1−p)31p^{49}(1-p)^{31},求出ppp的值使得该值为最大值。这时只需要求上述式子求导并令一阶导数为零就可以求出ppp的值了。解得最大似然值p̂&n...原创 2018-01-07 10:44:48 · 524 阅读 · 0 评论 -
大数据_hive_命令行
hive执行参数hive -H 帮助文档usage: hive -d,--define Variable subsitution to apply to hive commands. e.g. -d A=B or --define A=B --database Specify th原创 2018-01-22 19:51:29 · 2850 阅读 · 0 评论 -
大数据_hive_常用查询指令
查看表分区相关信息(我常用来查看分区对应的hdfs路径)desc formatted table_name partition(dt=20170227)查看表相关信息desc formatted table_name;查看表结构信息desc table_name;查看建表语句show create table mds_tblog_expo_dtl查看分区信息原创 2018-01-22 19:28:53 · 477 阅读 · 0 评论 -
大数据_hive_常见问题及解决方案
数据倾斜在创建表时指定倾斜字段、倾斜值1、快速链接:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-SkewedTables2、示例一:CREATE TABLE list_bucket_single (key STRING, value STRING)原创 2018-01-22 19:25:49 · 1089 阅读 · 1 评论 -
大数据_hive_function
UDFUDF UDTF UDAF有什么需要去查就行,根据需要的类型来查UDAF:聚合函数,多行聚合成一个值,如max,min...,collect_set(col)...UDTF:将一行拆分成多行,如explode(ARRAY),json_tuple(jsonStr, k1, k2, ...),parse_url_tuple(url, p1, p2, ...)使用"SELECT原创 2018-01-22 19:23:38 · 365 阅读 · 0 评论 -
大数据_hive_基本操作
DDLcreateCREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name -- (Note: TEMPORARY available in Hive 0.14.0 and later) [(col_name data_type [COMMENT col_comment], ... [原创 2018-01-22 19:21:22 · 1199 阅读 · 0 评论 -
大数据_hive_map-reduce个数及合并小文件
map数计算方式long splitSize = computeSplitSize(blockSize, minSize, maxSize);protected long computeSplitSize(long blockSize, long minSize, long maxSize) { return Ma原创 2018-01-22 19:18:02 · 2566 阅读 · 0 评论 -
机器学习_阅读笔记_朴素贝叶斯
理论1、算法优缺点: (1)优点:在数据较少的情况下,依然有效,可以处理多分类问题; (2)缺点:对输入数据的准备方式较为敏感。 (3)适用于标称型数据2、条件假设: (1)假设变量间相互独立,即p(x|ci)=p(x1|ci)∗p(x2|ci)∗···∗p(xn|ci)p(x|c_i)=p(x_1|c_i)∗p(x_2|c_i)∗···∗p(x_n|c_i); (xix_i原创 2018-01-18 19:31:16 · 218 阅读 · 0 评论