- 博客(5)
- 资源 (5)
- 收藏
- 关注
转载 [数理统计]先验概率、似然、后验概率
根据若干年的统计(经验)或者气候(常识),某地方下雨的概率——先验概率; 下雨(结果)的时候有乌云(原因/证据/观察的数据)的概率,即已经有了结果,对证据发生的可能性描述——似然; 根据天上有乌云(原因或者证据/观察数据),下雨(结果)的概率:后验概率;有下雨的可能(先验),下雨之前会有乌云(似然)→ 现在有乌云, 可以推断是否下雨; 后验 ~ 先验*似然感谢来自知乎的朋友 UG Vision
2016-11-27 14:39:44 536
转载 [机器学习]信息熵、信息增益的概念
信息熵信息熵 表示 随机变量 的 不确定性。不确定性越大(即所谓的信息量越大),信息熵越大。信息可不可以量化? 首先从直觉上来讲,是可以的。不然我们怎么觉得有的人废话特别多,却没什么信息量;而有的人一语中的,一句话就传达了很大的信息量。 为什么有的信息大,有的信息小? 有些事情本来不是很确定:例如 明天股票是涨是跌; 1)“明天NBA决赛开始了“,和“股票跌涨“没关系,所以“明天N
2016-11-25 21:36:53 1801 1
原创 [正则]正则表达式 捕获型括号和非捕获型括号
正则表达式 捕获型括号和非捕获型括号对于括号中的子表达式,正则表达式会将匹配的子表达式进行存储。问题描述import re PATH='/Users/Michael/.../app_stat.sh' CREATE_PATT = '.*?exists.*?(\w+(_\w+)+)\(' with open(PATH) as fr: content = fr.read() createP
2016-11-23 21:04:00 1211
转载 [hive]动态分区和静态分区
HIVE分区,实际上是通过一个路径来标识的,而不是在物理数据中。比如每天的数据,可能分区是pt=20121023这样,那么路径中它就会变成:/hdfs/path/pt=20121023/data_files。通过路径来标识的好处是,如果我们需要取特定分区的数据,只需要把这个路径下的数据取出来就可以了,不用扫描全部的数据。 HIVE默认是静态分区。但是有时候可能需要动态创建不同的分
2016-11-17 14:37:09 444
转载 [hive]Transform功能
Hive的TRANSFORM关键字提供了在SQL中调用自写脚本的功能,适合实现Hive中没有的功能又不想写UDF的情况。例如,按日期统计每天出现的uid数,通常用如下的SQL SELECT date, count(uid) FROM xxx GROUP BY date 但是,如果我想在reduce阶段对每天的uid形成一个列表,进行排序并输出,这在Hive中没有现成的功能。那么,可以自写脚
2016-11-17 10:01:14 514
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人