2017年03月_张博208

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 Python语言精要（利用Python 进行数据分析附录部分）

Python语言精要（利用Python 进行数据分析附录部分）exit(), ctrl+D 退出缩进，不是大括号万物皆对象： Python解释器中的任何数值、字符串、数据机构、函数、类、模块都对象，每个对象都有与之关联的类型（比如字符串或函数）对变量赋值，其实是创建等号右侧对象的一个引用如a=1,2,3,4; b=a, 此时b和a指向同一个地址，可用b=a[:]进

2017-03-30 14:42:04 864

转载（Python）异常处理try...except、raise

一、try...except有时候我们写程序的时候，会出现一些错误或异常，导致程序终止。例如，做除法时，除数为0，会引起一个ZeroDivisionError例子：1234a=10b=0c=a/bprint "done"运行结果：T

2017-03-28 18:50:27 389

转载 Python 函数参数引用（传值/传址）/copy/deepcopy

精简版：传值：被调函数局部变量改变不会影响主调函数局部变量传址：被调函数局部变量改变会影响主调函数局部变量Python参数传递方式：传递对象引用（传值和传址的混合方式），如果是数字，字符串，元组则传值；如果是列表，字典则传址；copy使用场景：列表或字典，且内部元素为数字，字符串或元组deepcopy使用场景：列表或字典，且内部元素包含列表或字典完整

2017-03-28 16:26:55 575

转载 python进阶教程之函数参数的多种传递方法

我们已经接触过函数(function)的参数(arguments)传递。当时我们根据位置，传递对应的参数。我们将接触更多的参数传递方式。回忆一下位置传递：复制代码代码如下:def f(a,b,c): return a+b+cprint(f(1,2,3))在调用f时，1，2，3根据位置分别传递给了a,b,c。关

2017-03-28 14:29:18 293

转载 python赋值和拷贝----一切皆对象，参数皆引用

目录(?)[-]摘要aappend3 ad 1 2 1 2 3 1 2 1 2摘要：1 python中的一切事物皆为对象，并且规定参数的传递都是对象的引用。2 python参数传递都是“传对象引用”方式。实际上相当于c++中传值和传引用的结合。3 如果函数收到的是可变对象（比如字典或者列表）的引用，就能修改对象的原始值——相当于通过“传引用”来传递对象

2017-03-28 14:23:09 328

转载深入理解 python 中的赋值、引用、拷贝、作用域

目录[-]1、先来看个问题吧：2、引用 VS 拷贝：3、增强赋值以及共享引用：4、python 从 2k 到 3k，语句变函数引发的变量作用域问题 5、深入理解 python 变量作用域及其陷阱5.1 可变对象 & 不可变对象5.2 函数值传递5.3 为什么修改全局的dict变量不用global关键字5.4 可变对象 list 的 = 和 append

2017-03-28 13:11:21 288

转载调和曲线图和轮廓图的比较

调和曲线图用于聚类判断，比较方便多元数据的可视化方法很多，譬如散点图、星图、雷达图、脸谱图、协同图等，大致可分为以下几类：1.基于点（如二维、三维散点图）；2.基于线（如轮廓图、调和曲线图）；3.基于平面图形（如星图、雷达图、蛛网图）；4.基于三维曲面（如三维曲面图）。其思想是将高维数据映射到低维空间（三维以下）内，尽量使信息损失最少，同时又能利于肉眼辨识。调和曲线图和轮廓图(即平行

2017-03-27 18:47:30 13424

转载决策树算法之悲观剪枝算法(PEP)

前言　　在机器学习经典算法中，决策树算法的重要性想必大家都是知道的。不管是ID3算法还是比如C4.5算法等等，都面临一个问题，就是通过直接生成的完全决策树对于训练样本来说是“过度拟合”的，说白了是太精确了。由于完全决策树对训练样本的特征描述得“过于精确” ,无法实现对新样本的合理分析, 所以此时它不是一棵分析新数据的最佳决策树。解决这个问题的方法就是对决策树进行剪枝，剪去影响预测精度的分支

2017-03-27 18:36:19 5731 2

转载 CART分类算法

分类：统计学习方法（7）目录(?)[-]GINI指数终止条件剪枝统计学习方法是一本好书，可惜例子太少。找到一个好的CART算法的例子谢谢原文作者了http://www.cnblogs.com/zhangchaoyang 作者:Orisun分类回归树(CART,Classification And Regression

2017-03-27 18:33:10 846

转载浅谈协方差矩阵

一、统计学的基本概念统计学里最基本的概念就是样本的均值、方差、标准差。首先，我们给定一个含有n个样本的集合，下面给出这些概念的公式描述：均值：标准差：方差：均值描述的是样本集合的中间点，它告诉我们的信息是有限的，而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。以这两个集合为例，[0, 8, 12, 20]和[8, 9, 11, 12]，

2017-03-26 20:37:26 352

转载协方差矩阵的几何解释

A geometric interpretation of the covariance matrixhttp://www.visiondummy.com/2014/04/geometric-interpretation-covariance-matrix/译文：http://demo.netfoucs.com/u010182633/article/details/45937051

2017-03-26 20:36:30 559

转载分类算法之朴素贝叶斯分类(Naive Bayesian classification)

0、写在前面的话我个人一直很喜欢算法一类的东西，在我看来算法是人类智慧的精华，其中蕴含着无与伦比的美感。而每次将学过的算法应用到实际中，并解决了实际问题后，那种快感更是我在其它地方体会不到的。一直想写关于算法的博文，也曾写过零散的两篇，但也许是相比于工程性文章来说太小众，并没有引起大家的兴趣。最近面临毕业找工作，为了能给自己增加筹码，决定再次复习算法方面的知

2017-03-26 20:33:30 326

转载决策树算法——ID3算法，C4.5算法

目录(?)[-]决策树算法1摘要2决策树引导3决策树的构造31ID3算法32C45算法4关于决策树的几点补充说明41如果属性用完了怎么办42关于剪枝决策树算法1、摘要在前面两篇文章中，分别介绍和讨论了朴素贝叶斯分类与贝叶斯网络两种分类算法。这两种算法都以贝叶斯定理为基础，可以对分类及决策问题进行概率

2017-03-26 20:29:23 916

转载 Hive – Group By 的实现 explain分析

目录(?)[-]准备数据计算过程OperatorExplain准备数据[java] view plain copySELECT uid, SUM(COUNT) FROM logs GROUP BY uid; [java] view plain copyh

2017-03-23 18:35:34 1597

转载 Hive 内建操作符与函数开发——深入浅出学Hive

目录：初始HiveHive安装与配置Hive 内建操作符与函数开发Hive JDBChive参数Hive 高级编程Hive QLHive Shell 基本操作hive 优化Hive体系结构Hive的原理配套视频课程第一部分：关系运算Hive支持的关系运算符

2017-03-23 11:44:53 662

转载 Hive – Distinct 的实现

准备数据语句SELECT COUNT, COUNT(DISTINCT uid) FROM logs GROUP BY COUNT;hive> SELECT * FROM logs;OKa 苹果 3a 橙子 3a 烧鸡 1b 烧鸡 3 hive> SELECT COUNT, COUNT(DISTINCT uid) FROM logs GROUP BY COUNT;

2017-03-21 14:03:16 692

转载 Hive SQL优化之 Count Distinct

Hive SQL优化之 Count DistinctHive是Hadoop的子项目，它提供了对数据的结构化管理和类SQL语言的查询功能。SQL的交互方式极大程度地降低了Hadoop生态环境中数据处理的门槛，用户不需要编写程序，通过SQL语句就可以对数据进行分析和处理。目前很多计算需求都可以由Hive来完成，极大程度地降低了开发成本。目前，Hive底层使用MapRed

2017-03-21 12:24:42 1384

转载 Hive SQL的编译过程

来源： http://tech.meituan.com/hive-sql-to-mapreduce.htmlHive是基于Hadoop的一个数据仓库系统，在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建，每天执行近万次的Hive ETL计算流程，负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中

2017-03-21 11:35:01 535

转载 Hive中的排序语法

目录(?)[-]Hive中的排序语法 ORDER BYSORT BYDISTRIBUTE BY with SORT BYCLUSTER BY来代替总结Hive配置中有个参数hive.mapred.mode，分为nonstrict，strict，默认是nonstrict如果设置为strict，会对三种情况的语句在compile环节做过滤：1. 笛卡尔积Jo

2017-03-20 18:13:33 1115

转载 HIVE 数据倾斜调优总结

在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些 Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。Hive的执行是分阶段的，map处理数据量的差异取决于上一个stage的reduce输出，所以如何将数据

2017-03-20 17:32:57 385

转载 hive sql 优化

优化时，把Hive sql当做map reduce程序来读，会有意想不到的惊喜。理解Hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。对分区插入数据(每次都会覆盖掉原来的数据):hive.map.aggr=trueMap 端部分聚合，相当于Combinerhive.groupby.skewindata=true有数据倾斜

2017-03-20 17:31:14 349

转载 Hive中Order by和Sort by的区别是什么?

使用order by会引发全局排序select * from baidu_click order by click desc;使用distribute和sort进行分组排序select * from baidu_click distribute by product_line sort by click desc;

2017-03-20 16:58:15 348

转载深入浅出数据仓库中SQL性能优化之Hive篇

摘要：Hive查询生成多个map reduce job，一个map reduce job又有map，reduce，spill，shuffle，sort等多个阶段，所以针对hive查询的优化可以大致分为针对MR中单个步骤的优化，针对MR全局的优化以及针对整个查询的优化。一个Hive查询生成多个Map Reduce Job，一个Map Reduce Job又有Map，Reduce，Spil

2017-03-20 16:09:01 194

转载 Hive高级查询(group by、 order by、 join等)

查询操作group by、 order by、 join 、 distribute by、sort by、 clusrer by、 union all1212底层的实现 mapreduce常见的聚合操作count计数count(*) 所有值不全为NULL时，加1操作count(1) 不管有没有值，只要有这条记录，值就加1count(col)

2017-03-20 15:12:28 310

转载第一个MapReduce案例集群模式&本地模式

第一个MapReduce案例集群模式&Linux本地模式记录一下自己在开发MapReduce程序的过程。思考点是：如何下手，怎样开发。1.对于平台的要求：环境已搭建完毕，且测试通过。我自己平台是：Centos6.4 +jdk1.7+hadoop2.5.1 都是64位的我这里写的是非常简单的一种：创建一个Java工程，导入jar包

2017-03-18 18:44:01 721 1

转载 HiveSQL解析过程详解

Hive是基于Hadoop的一个数据仓库系统，在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建，每天执行近万次的Hive ETL计算流程，负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中，我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力，在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过程

2017-03-17 17:11:53 2775

转载 WordCount运行详解

1、MapReduce理论简介 1.1 MapReduce编程模型　　MapReduce采用"分而治之"的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个分节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。简单地说，MapReduce就是"任务的分解与结果的汇总"。　　在Hadoop中，用于执行MapReduce任务的机器角色有两个：一个是Job

2017-03-17 16:58:19 673

转载 MapReduce:详解Shuffle(copy,sort,merge)过程

Shuffle过程是MapReduce的核心，也被称为奇迹发生的地方。要想理解MapReduce， Shuffle是必须要了解的。我看过很多相关的资料，但每次看完都云里雾里的绕着，很难理清大致的逻辑，反而越搅越混。前段时间在做MapReduce job 性能调优的工作，需要深入代码研究MapReduce的运行机制，这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火，所以在这里

2017-03-17 16:26:13 265

转载 HiveQL与SQL区别

1.hive内联支持什么格式？2.分号字符注意什么问题？3.hive中empty是否为null?4.hive是否支持插入现有表或则分区中？5.hive是否支持INSERT INTO 表 values（）？1、Hive不支持等值连接 •SQL中对两表内联可以写成：•select * from dual a,dual b where a.key = b.key;

2017-03-16 22:27:24 1516

转载 Hive查询进阶

通过Hive提供的order by子句可以让最终的输出结果整体有序。但是因为Hive是基于Hadoop之上的，要生成这种整体有序的结果，就必须强迫Hadoop只利用一个Reduce来完成处理。这种方式的副作用就是回降低效率。如果你不需要最终结果整体有序，你就可以使用sort by子句来进行排序。这种排序操作只保证每个Reduce的输出是有序的。如果你希望某些特定行被同一个Reduce处理，

2017-03-16 21:09:10 236

转载 Hive中order by，sort by，distribute by，cluster by的区别

一：order byorder by会对输入做全局排序，因此只有一个Reducer(多个Reducer无法保证全局有序)，然而只有一个Reducer，会导致当输入规模较大时，消耗较长的计算时间。关于order by的详细介绍请参考这篇文章：Hive Order by操作。二：sort bysort by不是全局排序，其在数据进入reducer前完成排序，因此，如果用sort

2017-03-16 21:07:07 354

转载 Hive 删除行，表，清空类容

delect:用于删除特定行条件,你可以从给定表中删除所有的行？？？？TRUNCATE:truncate用于删除所有的行，这个行为在Hive元存储删除数据是不可逆的DROP:删除hive中的表truncate 不能删除外部表！因为外部表里的数据并不是存放在Hive Meta store中truncate:truncate table table_

2017-03-16 21:02:55 24610 1

转载 hive alter table (删除某一列，增加列)语句

Hive alter table 语句结构：CREATE TABLE test (creatingTs BIGINT,a STRING,b BIGINT,c STRING,d STRING,e BIGINT,f BIGINT);如果需要删除 column f 列，可以使用以下语句：ALTER TABLE test

2017-03-16 20:51:12 48374 5

转载 Hive常用的SQL命令操作

创建表Hive> CREATE TABLE pokes (foo INT, bar STRING); 创建表并创建索引字段dshive> CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING); 显示所有表hive> SHOW TABLES;按正条件（正则表达式）显示

2017-03-16 20:09:18 393

转载 Hive修改表语句

本章将介绍如何修改表的属性，如，修改表名，修改列名，添加列，并删除或替换列。Alter Table 语句它是在Hive中用来修改的表。语法声明接受任意属性，我们希望在一个表中修改以下语法。ALTER TABLE name RENAME TO new_nameALTER TABLE name ADD COLUMNS (col_spec[, col_spec ..

2017-03-16 19:45:25 307

转载 Hive四种数据导入方式

Hive的几种常见的数据导入方式这里介绍四种：（1）、从本地文件系统中导入数据到Hive表；（2）、从HDFS上导入数据到Hive表；（3）、从别的表中查询出相应的数据并导入到Hive表中；（4）、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。一、从本地文件系统中导入数据到Hive表先在Hive里面创建好表，如下：

2017-03-16 19:40:42 675

转载 Hive的窗口函数

如果在一条Hive SQL涉及到多个窗口函数的引用方法如下：select p_mfgr, p_name, p_size,sum(p_size) over w1 as s1,sum(p_size) over w2 as s2,sum(p_size) over w3 as s3from partwindow w1 as (distribute by p_mf

2017-03-16 19:35:00 364

转载 hive array、map、struct使用

hive提供了复合数据类型：Structs： structs内部的数据可以通过DOT（.）来存取，例如，表中一列c的类型为STRUCT{a INT; b INT}，我们可以通过c.a来访问域aMaps（K-V对）：访问指定域可以通过["指定域名称"]进行，例如，一个Map M包含了一个group-》gid的kv对，gid的值可以通过M['group']来获取Arrays：array中的

2017-03-15 21:10:51 591

转载 Hive中join, outer join, semi join区别

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。最常用的就是多表关联查询，主要讲解下join、outer join和semi join的具体使用。join是最简单的关联操作，两边关联只取交集。outer join分为left outer jo

2017-03-15 20:37:26 311

转载 hive中的LEFT SEMI JOIN

LEFT SEMI JOIN 是 IN/EXISTS 子查询的一种更高效的实现。Hive 当前没有实现 IN/EXISTS 子查询，所以你可以用 LEFT SEMI JOIN 重写你的子查询语句。LEFT SEMI JOIN 的限制是， JOIN 子句中右边的表只能在 ON 子句中设置过滤条件，在 WHERE 子句、SELECT 子句或其他地方过滤都不行。

2017-03-15 20:15:47 10474

llama3 study

2024-07-25

tensorrt ppt资料

tensorrt的教程，和相关的资料，案例，供大家学习

2024-07-09

GPU-知识点资料合集

bank_conflicts coalescing

2023-08-03

Pro Go The Complete Guide -go语言学习最新书籍

Best-selling author Adam Freeman explains how to get the most from Go, starting from the basics and building up to the most advanced and sophisticated features. You will learn how Go builds on a simple and consistent type system to create a comprehensive and productive development experience that produces fast and robust applications that run across platforms 参见：https://www.amazon.com/Pro-Go-Complete-Programming-Efficient/dp/1484273540/ref=sr_1_1?crid=1K22H21ZB1EIZ&keywords=Pro+Go+The+Complete+G

2023-06-19

扩散模型讲义美国大学之一

2023-03-28

Advanced_Programming_in_the_UNIX_Environment，_3rd

Advanced_Programming_in_the_UNIX_Environment，_3rd_Edition very good book for unix user

2018-11-30

Pattern_Recognition_and_Big_Data

Pattern_Recognition_and_Big_Data 很好的资源，对于学习大数据的朋友来说

2018-09-07

图论引导中文

中文版本图论引导

2018-09-05

现代图论--------------

现代图论研究生教材适合大家学习与总结了

2018-09-05

Deep_Learning_Quick_Reference

Deep_Learning_Quick_Reference, a cookbook for deep learning

2018-09-01

Convex Optimization Algorithms

Convex Optimization Algorithms, understand convex optimization algorithms, this is good chances

2018-09-01

Guide.to.Medical.Image.Analysis.Methods.and.Algorithms

Guide.to.Medical.Image.Analysis.Methods.and.Algorithms very good book for computer vision

2018-09-01

machine learning algorithm

machine learning algorithm 想学习的可以好好学学了

2018-04-02

Python Machine Learning Machine Learning and Deep Learning

Python Machine Learning Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow, 2nd Edition 很受推荐

2018-03-27

Data Structures and Algorithms Using Python and C++

Data Structures and Algorithms Using Python and C++ 数据结构与算法方面的书籍

2018-03-27

R_for_Data_Science

R_for_Data_Science_－_Import，_Tidy，_Transform，_Visualize_and_Model_Data.rar

2018-03-27

深度学习之Pytorch

国内少有的学习 pytorch的资料,适合初学者, 希望对大家有帮助,清晰版本

2018-03-27

Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow

Table of Contents Giving Computers the Ability to Learn from Data Training Simple Machine Learning Algorithms for Classification A Tour of Machine Learning Classifiers Using Scikit-Learn Building Good Training Sets - Data Preprocessing Compressing Data via Dimensionality Reduction Learning Best Practices for Model Evaluation and Hyperparameter Tuning Combining Different Models for Ensemble Learning Applying Machine Learning to Sentiment Analysis Embedding a Machine Learning Model into a Web Application Predicting Continuous Target Variables with Regression Analysis Working with Unlabeled Data - Clustering Analysis Implementing a Multilayer Artificial Neural Network from Scratch Parallelizing Neural Network Training with TensorFlow Going Deeper - The Mechanics of TensorFlow Classifying Images with Deep Convolutional Neural Networks Modeling Sequential Data using Recurrent Neural Networks

2018-03-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

llama3 study

tensorrt ppt资料

GPU-知识点资料合集

Pro Go The Complete Guide -go语言学习最新书籍

扩散模型讲义 美国大学之一

Advanced_Programming_in_the_UNIX_Environment，_3rd

Pattern_Recognition_and_Big_Data

图论引导 中文

现代图论--------------

Deep_Learning_Quick_Reference

Convex Optimization Algorithms

Guide.to.Medical.Image.Analysis.Methods.and.Algorithms

machine learning algorithm

Python Machine Learning Machine Learning and Deep Learning

Data Structures and Algorithms Using Python and C++

R_for_Data_Science

深度学习之Pytorch

Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow

Approximate.Dynamic.Programming.2011

计算群体智能基础

Swarm Intelligence Principles Advances and Applications

Reinforcement Learning With Open A TensorFlow and Keras Using Python.pdf

Fundamentals of Deep Learning完整非扫描版本2017

Data Wrangling with R

NLTK基础教程-用NLTK和Python库构建机器学习应用2017-06

Text Mining in Practice with R 2017.12

Text_Mining－From_Ontology_Learning_to_Automated_Text_Processing_Applications

Python Natural Language Processing最新版本

Mastering Scipy

Elegant SciPy

Tensorflow 机器学习参考手册2007

reinforcement learning An Introduction 第二版

Spark大数据处理技术 带标签 完整版

TensorFlow技术解析与实战 高清晰完整版- 2017新书

TENSORFLOW深度学习

模式分类11

集体编程智慧

敏捷软件开发：原则、模式与实践

面向对象方法原理与实践

ollydbg 教程

空空如也

扩散模型讲义美国大学之一

图论引导中文

Spark大数据处理技术带标签完整版

TensorFlow技术解析与实战高清晰完整版- 2017新书