- 博客(50)
- 资源 (42)
- 收藏
- 关注
原创 Python语言精要 (利用Python 进行数据分析附录部分)
Python语言精要 (利用Python 进行数据分析附录部分)exit(), ctrl+D 退出缩进,不是大括号万物皆对象: Python解释器中的任何数值、字符串、数据机构、函数、类、模块都对象,每个对象都有与之关联的类型(比如字符串或函数)对变量赋值, 其实是创建等号右侧对象的一个引用 如a=1,2,3,4; b=a, 此时b和a指向同一个地址, 可用b=a[:]进
2017-03-30 14:42:04 864
转载 (Python)异常处理try...except、raise
一、try...except有时候我们写程序的时候,会出现一些错误或异常,导致程序终止。例如,做除法时,除数为0,会引起一个ZeroDivisionError例子:1234a=10b=0c=a/bprint "done"运行结果:T
2017-03-28 18:50:27 389
转载 Python 函数参数引用(传值/传址)/copy/deepcopy
精简版:传值:被调函数局部变量改变不会影响主调函数局部变量传址:被调函数局部变量改变会影响主调函数局部变量Python参数传递方式:传递对象引用(传值和传址的混合方式),如果是数字,字符串,元组则传值;如果是列表,字典则传址;copy使用场景:列表或字典,且内部元素为数字,字符串或元组deepcopy使用场景:列表或字典,且内部元素包含列表或字典完整
2017-03-28 16:26:55 575
转载 python进阶教程之函数参数的多种传递方法
我们已经接触过函数(function)的参数(arguments)传递。当时我们根据位置,传递对应的参数。我们将接触更多的参数传递方式。回忆一下位置传递:复制代码代码如下:def f(a,b,c): return a+b+cprint(f(1,2,3))在调用f时,1,2,3根据位置分别传递给了a,b,c。关
2017-03-28 14:29:18 293
转载 python赋值和拷贝----一切皆对象,参数皆引用
目录(?)[-]摘要aappend3 ad 1 2 1 2 3 1 2 1 2摘要:1 python中的一切事物皆为对象,并且规定参数的传递都是对象的引用。2 python参数传递都是“传对象引用”方式。实际上相当于c++中传值和传引用的结合。3 如果函数收到的是可变对象(比如字典或者列表)的引用,就能修改对象的原始值——相当于通过“传引用”来传递对象
2017-03-28 14:23:09 328
转载 深入理解 python 中的赋值、引用、拷贝、作用域
目录[-]1、先来看个问题吧:2、引用 VS 拷贝:3、增强赋值以及共享引用:4、python 从 2k 到 3k,语句变函数引发的变量作用域问题 5、深入理解 python 变量作用域及其陷阱5.1 可变对象 & 不可变对象5.2 函数值传递5.3 为什么修改全局的dict变量不用global关键字5.4 可变对象 list 的 = 和 append
2017-03-28 13:11:21 288
转载 调和曲线图和轮廓图的比较
调和曲线图用于聚类判断, 比较方便多元数据的可视化方法很多,譬如散点图、星图、雷达图、脸谱图、协同图等,大致可分为以下几类:1.基于点(如二维、三维散点图);2.基于线(如轮廓图、调和曲线图);3.基于平面图形(如星图、雷达图、蛛网图);4.基于三维曲面(如三维曲面图)。其思想是将高维数据映射到低维空间(三维以下)内,尽量使信息损失最少,同时又能利于肉眼辨识。调和曲线图和轮廓图(即平行
2017-03-27 18:47:30 13424
转载 决策树算法之悲观剪枝算法(PEP)
前言 在机器学习经典算法中,决策树算法的重要性想必大家都是知道的。不管是ID3算法还是比如C4.5算法等等,都面临一个问题,就是通过直接生成的完全决策树对于训练样本来说是“过度拟合”的,说白了是太精确了。由于完全决策树对训练样本的特征描述得“过于精确” ,无法实现对新样本的合理分析, 所以此时它不是一棵分析新数据的最佳决策树。解决这个问题的方法就是对决策树进行剪枝,剪去影响预测精度的分支
2017-03-27 18:36:19 5731 2
转载 CART分类算法
分类:统计学习方法(7) 目录(?)[-]GINI指数终止条件剪枝统计学习方法是一本好书,可惜例子太少。找到一个好的CART算法的例子谢谢原文作者了http://www.cnblogs.com/zhangchaoyang 作者:Orisun分类回归树(CART,Classification And Regression
2017-03-27 18:33:10 846
转载 浅谈协方差矩阵
一、统计学的基本概念统计学里最基本的概念就是样本的均值、方差、标准差。首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述:均值:标准差:方差:均值描述的是样本集合的中间点,它告诉我们的信息是有限的,而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。以这两个集合为例,[0, 8, 12, 20]和[8, 9, 11, 12],
2017-03-26 20:37:26 352
转载 协方差矩阵的几何解释
A geometric interpretation of the covariance matrixhttp://www.visiondummy.com/2014/04/geometric-interpretation-covariance-matrix/译文:http://demo.netfoucs.com/u010182633/article/details/45937051
2017-03-26 20:36:30 559
转载 分类算法之朴素贝叶斯分类(Naive Bayesian classification)
0、写在前面的话 我个人一直很喜欢算法一类的东西,在我看来算法是人类智慧的精华,其中蕴含着无与伦比的美感。而每次将学过的算法应用到实际中,并解决了实际问题后,那种快感更是我在其它地方体会不到的。 一直想写关于算法的博文,也曾写过零散的两篇,但也许是相比于工程性文章来说太小众,并没有引起大家的兴趣。最近面临毕业找工作,为了能给自己增加筹码,决定再次复习算法方面的知
2017-03-26 20:33:30 326
转载 决策树算法——ID3算法,C4.5算法
目录(?)[-]决策树算法1摘要2决策树引导3决策树的构造31ID3算法32C45算法4关于决策树的几点补充说明41如果属性用完了怎么办42关于剪枝决策树算法1、摘要 在前面两篇文章中,分别介绍和讨论了朴素贝叶斯分类与贝叶斯网络两种分类算法。这两种算法都以贝叶斯定理为基础,可以对分类及决策问题进行概率
2017-03-26 20:29:23 916
转载 Hive – Group By 的实现 explain分析
目录(?)[-]准备数据计算过程OperatorExplain准备数据[java] view plain copySELECT uid, SUM(COUNT) FROM logs GROUP BY uid; [java] view plain copyh
2017-03-23 18:35:34 1597
转载 Hive 内建操作符与函数开发——深入浅出学Hive
目录:初始HiveHive安装与配置Hive 内建操作符与函数开发Hive JDBChive参数Hive 高级编程Hive QLHive Shell 基本操作hive 优化Hive体系结构Hive的原理 配套视频课程 第一部分:关系运算Hive支持的关系运算符
2017-03-23 11:44:53 662
转载 Hive – Distinct 的实现
准备数据语句SELECT COUNT, COUNT(DISTINCT uid) FROM logs GROUP BY COUNT;hive> SELECT * FROM logs;OKa 苹果 3a 橙子 3a 烧鸡 1b 烧鸡 3 hive> SELECT COUNT, COUNT(DISTINCT uid) FROM logs GROUP BY COUNT;
2017-03-21 14:03:16 692
转载 Hive SQL优化之 Count Distinct
Hive SQL优化之 Count DistinctHive是Hadoop的子项目,它提供了对数据的结构化管理和类SQL语言的查询功能。SQL的交互方式极大程度地降低了Hadoop生态环境中数据处理的门槛,用户不需要编写程序,通过SQL语句就可以对数据进行分析和处理。目前很多计算需求都可以由Hive来完成,极大程度地降低了开发成本。目前,Hive底层使用MapRed
2017-03-21 12:24:42 1384
转载 Hive SQL的编译过程
来源: http://tech.meituan.com/hive-sql-to-mapreduce.htmlHive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中
2017-03-21 11:35:01 535
转载 Hive中的排序语法
目录(?)[-]Hive中的排序语法 ORDER BYSORT BYDISTRIBUTE BY with SORT BYCLUSTER BY来代替总结Hive配置中有个参数hive.mapred.mode,分为nonstrict,strict,默认是nonstrict如果设置为strict,会对三种情况的语句在compile环节做过滤:1. 笛卡尔积Jo
2017-03-20 18:13:33 1115
转载 HIVE 数据倾斜调优总结
在做Shuffle阶段的优化过程中,遇 到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些 Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段 的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据
2017-03-20 17:32:57 385
转载 hive sql 优化
优化时,把Hive sql当做map reduce程序来读,会有意想不到的惊喜。理解Hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 对分区插入数据(每次都会覆盖掉原来的数据):hive.map.aggr=trueMap 端部分聚合,相当于Combinerhive.groupby.skewindata=true有数据倾斜
2017-03-20 17:31:14 349
转载 Hive中Order by和Sort by的区别是什么?
使用order by会引发全局排序select * from baidu_click order by click desc;使用distribute和sort进行分组排序select * from baidu_click distribute by product_line sort by click desc;
2017-03-20 16:58:15 348
转载 深入浅出数据仓库中SQL性能优化之Hive篇
摘要:Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致分为针对MR中单个步骤的优化,针对MR全局的优化以及针对整个查询的优化。一个Hive查询生成多个Map Reduce Job,一个Map Reduce Job又有Map,Reduce,Spil
2017-03-20 16:09:01 194
转载 Hive高级查询(group by、 order by、 join等)
查询操作group by、 order by、 join 、 distribute by、sort by、 clusrer by、 union all1212底层的实现 mapreduce常见的聚合操作count计数count(*) 所有值不全为NULL时,加1操作count(1) 不管有没有值,只要有这条记录,值就加1count(col)
2017-03-20 15:12:28 310
转载 第一个MapReduce案例集群模式&本地模式
第一个MapReduce案例集群模式&Linux本地模式 记录一下自己在开发MapReduce程序的过程。 思考点是:如何下手,怎样开发。1.对于平台的要求:环境已搭建完毕,且测试通过。 我自己平台是:Centos6.4 +jdk1.7+hadoop2.5.1 都是64位的我这里写的是非常简单的一种:创建一个Java工程,导入jar包
2017-03-18 18:44:01 721 1
转载 HiveSQL解析过程详解
Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区的 咨询和自己的努力,在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过程
2017-03-17 17:11:53 2775
转载 WordCount运行详解
1、MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。 在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是Job
2017-03-17 16:58:19 673
转载 MapReduce:详解Shuffle(copy,sort,merge)过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里
2017-03-17 16:26:13 265
转载 HiveQL与SQL区别
1.hive内联支持什么格式?2.分号字符注意什么问题?3.hive中empty是否为null?4.hive是否支持插入现有表或则分区中?5.hive是否支持INSERT INTO 表 values()?1、Hive不支持等值连接 •SQL中对两表内联可以写成:•select * from dual a,dual b where a.key = b.key;
2017-03-16 22:27:24 1516
转载 Hive查询进阶
通过Hive提供的order by子句可以让最终的输出结果整体有序。但是因为Hive是基于Hadoop之上的,要生成这种整体有序的结果,就必须强迫Hadoop只利用一个Reduce来完成处理。这种方式的副作用就是回降低效率。如果你不需要最终结果整体有序,你就可以使用sort by子句来进行排序。这种排序操作只保证每个Reduce的输出是有序的。如果你希望某些特定行被同一个Reduce处理,
2017-03-16 21:09:10 236
转载 Hive中order by,sort by,distribute by,cluster by的区别
一:order byorder by会对输入做全局排序,因此只有一个Reducer(多个Reducer无法保证全局有序),然而只有一个Reducer,会导致当输入规模较大时,消耗较长的计算时间。关于order by的详细介绍请参考这篇文章:Hive Order by操作。二:sort bysort by不是全局排序,其在数据进入reducer前完成排序,因此,如果用sort
2017-03-16 21:07:07 354
转载 Hive 删除行, 表 ,清空类容
delect:用于删除特定行条件,你可以从给定表中删除所有的行????TRUNCATE:truncate用于删除所有的行,这个行为在Hive元存储删除数据是不可逆的DROP:删除hive中的表truncate 不能删除外部表!因为外部表里的数据并不是存放在Hive Meta store中truncate:truncate table table_
2017-03-16 21:02:55 24610 1
转载 hive alter table (删除某一列, 增加列)语句
Hive alter table 语句结构:CREATE TABLE test (creatingTs BIGINT,a STRING,b BIGINT,c STRING,d STRING,e BIGINT,f BIGINT);如果需要删除 column f 列,可以使用以下语句:ALTER TABLE test
2017-03-16 20:51:12 48374 5
转载 Hive常用的SQL命令操作
创建表Hive> CREATE TABLE pokes (foo INT, bar STRING); 创建表并创建索引字段dshive> CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING); 显示所有表hive> SHOW TABLES;按正条件(正则表达式)显示
2017-03-16 20:09:18 393
转载 Hive修改表语句
本章将介绍如何修改表的属性,如,修改表名,修改列名,添加列,并删除或替换列。Alter Table 语句它是在Hive中用来修改的表。语法声明接受任意属性,我们希望在一个表中修改以下语法。ALTER TABLE name RENAME TO new_nameALTER TABLE name ADD COLUMNS (col_spec[, col_spec ..
2017-03-16 19:45:25 307
转载 Hive四种数据导入方式
Hive的几种常见的数据导入方式这里介绍四种:(1)、从本地文件系统中导入数据到Hive表;(2)、从HDFS上导入数据到Hive表;(3)、从别的表中查询出相应的数据并导入到Hive表中;(4)、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。一、从本地文件系统中导入数据到Hive表先在Hive里面创建好表,如下:
2017-03-16 19:40:42 675
转载 Hive的窗口函数
如果在一条Hive SQL涉及到多个窗口函数的引用方法如下:select p_mfgr, p_name, p_size,sum(p_size) over w1 as s1,sum(p_size) over w2 as s2,sum(p_size) over w3 as s3from partwindow w1 as (distribute by p_mf
2017-03-16 19:35:00 364
转载 hive array、map、struct使用
hive提供了复合数据类型:Structs: structs内部的数据可以通过DOT(.)来存取,例如,表中一列c的类型为STRUCT{a INT; b INT},我们可以通过c.a来访问域aMaps(K-V对):访问指定域可以通过["指定域名称"]进行,例如,一个Map M包含了一个group-》gid的kv对,gid的值可以通过M['group']来获取Arrays:array中的
2017-03-15 21:10:51 591
转载 Hive中join, outer join, semi join区别
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。最常用的就是多表关联查询,主要讲解下join、outer join和semi join的具体使用。join是最简单的关联操作,两边关联只取交集。outer join分为left outer jo
2017-03-15 20:37:26 311
转载 hive中的LEFT SEMI JOIN
LEFT SEMI JOIN 是 IN/EXISTS 子查询的一种更高效的实现。Hive 当前没有实现 IN/EXISTS 子查询,所以你可以用 LEFT SEMI JOIN 重写你的子查询语句。LEFT SEMI JOIN 的限制是, JOIN 子句中右边的表只能在 ON 子句中设置过滤条件,在 WHERE 子句、SELECT 子句或其他地方过滤都不行。
2017-03-15 20:15:47 10474
Pro Go The Complete Guide -go语言学习最新书籍
2023-06-19
Advanced_Programming_in_the_UNIX_Environment,_3rd
2018-11-30
Deep_Learning_Quick_Reference
2018-09-01
Convex Optimization Algorithms
2018-09-01
Guide.to.Medical.Image.Analysis.Methods.and.Algorithms
2018-09-01
Python Machine Learning Machine Learning and Deep Learning
2018-03-27
Data Structures and Algorithms Using Python and C++
2018-03-27
R_for_Data_Science
2018-03-27
Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow
2018-03-17
Approximate.Dynamic.Programming.2011
2018-01-17
Swarm Intelligence Principles Advances and Applications
2018-01-13
Reinforcement Learning With Open A TensorFlow and Keras Using Python.pdf
2017-12-18
Fundamentals of Deep Learning完整非扫描版本2017
2017-12-16
Text Mining in Practice with R 2017.12
2017-12-13
Text_Mining-From_Ontology_Learning_to_Automated_Text_Processing_Applications
2017-12-13
Tensorflow 机器学习参考手册2007
2017-11-22
Spark大数据处理技术 带标签 完整版
2017-11-12
模式分类11
2016-11-07
集体编程智慧
2016-11-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人