2018年05月_张博208

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载 Spark2.0机器学习系列之11：聚类(幂迭代聚类， power iteration clustering， PIC)

在Spark2.0版本中（不是基于RDD API的MLlib），共有四种聚类方法：（1）K-means （2）Latent Dirichlet allocation (LDA) （3）Bisecting k-means（二分k均值算法）（4）Gaussian Mixture Model (GMM)。...

2018-05-30 17:47:17 919

转载 scala中为什么不建议用return

scala中为什么不建议用return在scala中使用return的话，编译的时候会提示the latest statement is method is automatically returned, use of th return keyword is redundant.这个警告是说最后一个语句的结果会自动返回，不需要使用return语句。 scala不建议使用return关键字，这一点...

2018-05-17 14:21:31 832

转载 awk命令

awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入(stdin)、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。awk有很多内建的功能，比如数组、函数等，这是它和C语言的相同之处，灵活性是awk最大的优势。awk命令格式和选项语法形式a...

2018-05-17 10:22:41 355

转载 HIVE External&TBLPROPERTIES(二)

HIVE External&TBLPROPERTIES(二)1.Externalhive中有两种表：外部表和内部表（managed and external）。可以通过desc formatted table_name 命令来查看表的信息，来辨别表是外部表还是内部表。内部表的文件，元数据和统计信息等由hive进行管理，被存储在hive.metastore.warehouse.dir 目录...

2018-05-16 13:37:46 1866

转载 Linux中变量 #, @, 0, 1, 2, *,$$,$?的含义

12345678$# 是传给脚本的参数个数$0 是脚本本身的名字$1 是传递给该shell脚本的第一个参数$2 是传递给该shell脚本的第二个参数$@ 是传给脚本的所有参数的列表$* 是以一个单字符串显示所有向脚本传递的参数，与位置变量不同，参数可超过9个$$ 是脚本运行的当前进程ID号$? 是显示最后命令的退出状态，0表示没有错误，其他表示有错误区别：@@*相同点：都是引用所有参数不同点：只有...

2018-05-15 21:39:30 464

转载 linux shell 管道命令(pipe)使用及与shell重定向区别

看了前面一节：linux shell数据重定向（输入重定向与输出重定向）详细分析估计还有一些朋友是头晕晕的，好复杂的重定向了。这次我们看下管道命令了。shell管道，可以说用法就简单多了。管道命令操作符是：”|”,它仅能处理经由前面一个指令传出的正确输出信息，也就是 standard output 的信息，对于 stdandard error 信息没有直接处理能力。然后，传递给下一个命令，作为...

2018-05-14 16:54:46 315

转载 linux shell数据重定向（输入重定向与输出重定向）详细分析

在了解重定向之前，我们先来看看linux 的文件描述符。linux文件描述符：可以理解为linux跟踪打开文件，而分配的一个数字，这个数字有点类似c语言操作文件时候的句柄，通过句柄就可以实现文件的读写操作。用户可以自定义文件描述符范围是：3-num,这个最大数字，跟用户的：ulimit –n 定义数字有关系，不能超过最大值。 linux启动后，会默认打开3个文件描述符，分别是：标准输入stand...

2018-05-14 16:51:00 140

转载 linux中sed的用法

sed命令行格式为： sed [-nefri] ‘command’ 输入文本/文件常用选项： -n∶取消默认的输出,使用安静(silent)模式。在一般 sed 的用法中，所有来自 STDIN的资料一般都会被列出到屏幕上。但如果加上 -n 参数后，则只有经过sed 特殊处理的那一行(或者动作)才会被列出来 -e∶进行多项编辑，即对输入...

2018-05-14 16:36:09 6845

转载 linux每天一小步---tail命令详解

1 命令功能 tail命令用于显示文件中末尾的内容（默认显示最后10行内容）2 命令语法 tail 【选项参数】【文件名1】【文件名2】3 命令参数 -f 用于循环读取文件的内容，监视文件的增长 -F 与-f类似，区别在于当将监视的文件删除重建后-F仍能监视该文件内容-f则不行，-F有重试的功能，会不断重试 -c N 显示文件末尾N字节的内容 -n 显示文...

2018-05-14 15:32:04 280

转载脚本调试_sh -x 、set -x

sh -x 脚本名.sh 对整个脚本进行跟踪[root@master shellexer]# cat bash.sh #!/bin/bashvar=$1echo $var[root@master shellexer]# sh -x bash.sh hello+ var=hello+ echo hellohello #脚本输出结果 #带+的表示被跟踪的代码set -x对脚本内部部分代...

2018-05-14 13:59:31 452

转载 Hive 脚本执行

hive执行脚本hive -e “sql语句” 会将查询的结果打印在控制台上。 hive -e “sql语句” >> xxx 会将查询的结果重定向到xxx文件中，会显示OK和抓取的数据条数 hive -S -e “sql语句” >> xxx 会将查询的结果重定向到xxx文件中，不会显示OK和抓取的数据条数 hive -f sqlfile 执行文件中的sql（用于sql比较长...

2018-05-14 13:51:15 2704

转载 Unix/Linux脚本中"set -e"的作用

编写shell脚本没多久，对于其许多命令的具体用法还不太熟悉。最近刚好有需求，就尝试用脚本去实现。其中就有用到set -e选项。在用这个命令之前，也查过其功能，描述比较简单：就是当命令以非零状态退出时，则退出shell。主要作用是，当脚本执行出现意料之外的情况时，立即退出，避免错误被忽略，导致最终结果不正确。这里主要讨论的是set -e 选项的作用范围，创建如下测试文件：[plai...

2018-05-14 13:43:32 346

转载机器学习-异常检测算法（三）：Principal Component Analysis

Principal Component Analysis（PCA）是最常见的数据降维的方法。根据 Wikipedia 的介绍，它最早是由 Karl Pearson（同时也是卡方检验的发明者）在1901年提出，到现在已经一百多年了。作为一种降维的方法，PCA可以将原数据进行线性变换，并找出数据中信息含量最大的主要成分，去除信息含量较低的成分，从而减少冗余，降低噪音。通常在异常检测的语境里，噪音（n...

2018-05-13 18:05:08 6067 2

转载异常检测（三）——Local Outlier Factor（LOF）

在中等高维数据集上执行异常值检测的另一种有效方法是使用局部异常因子（Local Outlier Factor ，LOF）算法。1、算法思想LOF通过计算一个数值score来反映一个样本的异常程度。这个数值的大致意思是：一个样本点周围的样本点所处位置的平均密度比上该样本点所在位置的密度。比值越大于1，则该点所在位置的密度越小于其周围样本所在位置的密度，这个点就越有可能是异常点。关于密度等理论概念，详...

2018-05-13 18:03:22 4219

转载机器学习-异常检测算法（二）：Local Outlier Factor

Local Outlier Factor（LOF）是基于密度的经典算法（Breuning et. al. 2000）, 文章发表于 SIGMOD 2000, 到目前已经有 3000+ 的引用。在 LOF 之前的异常检测算法大多是基于统计方法的，或者是借用了一些聚类算法用于异常点的识别（比如，DBSCAN，OPTICS）。但是，基于统计的异常检测算法通常需要假设数据服从特定的概率分布，这个假设往...

2018-05-13 18:00:24 3484

转载异常点检测算法isolation forest的分布式实现

无监督领域有一个准度和效率双佳的异常点检测算法，我在实践中使用过几次，效果奇好，就是最近几年非常流行的isolation forest（孤立森林）。该算法在sklearn中有现成的包，但是如果大数据的集群上跑的话，目前没有封装好的接口，给分布式任务的部署带来了很多不便（话说spark mllib中集成的算法真心太少了），本文用scala从头进行该算法在spark上的分布式实现，并演示任务在集群上的...

2018-05-13 17:51:57 1161

转载 Isolation Forest算法原理详解

本文只介绍原论文中的 Isolation Forest 孤立点检测算法的原理，实际的代码实现详解请参照我的另一篇博客：Isolation Forest算法实现详解。或者读者可以到我的GitHub上去下载完整的项目源码以及测试代码（源代码程序是基于maven构建）： https://github.com/JeemyJohn/AnomalyDetection。前言随着机器学...

2018-05-13 17:38:49 458

转载机器学习-异常检测算法（一）：Isolation Forest

"An outlier is an observation which deviates so much from other observations as to arouse suspicions that it was generated by a different mechanism." — D. M. Hawkins, Identif...

2018-05-13 17:30:29 5817

原创 Hive UDTF 多粒度计算优化

2018-05-04 15:38:23 276

转载 Hive优化

要点：优化时，把hive sql当做map reduce程序来读，会有意想不到的惊喜。理解hadoop的核心能力，是hive优化的根本。长期观察hadoop处理数据的过程，有几个显著的特征:1.不怕数据多，就怕数据倾斜。2．对jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产生十几个jobs，没半小时是跑不完的。map reduce作业初始化的时间是比较长的...

2018-05-04 15:35:55 237

转载 Hive SQL操作与函数自定义（二）

9 Operators and UDFs9.1 内置运算符9.1.1 关系运算符操作符运算对象的类型描述A <=> BALL都是NULL时，返回TRUE，有一为NULL时，返回FALSE，都不为NULL时，与‘=’运算符一样。A <> BALLA或B为NULL时，返回NULL，否则A不等于B是返回TRUE，反之FALSE。A RLIKE BstringsA或B为NULL时，...

2018-05-03 11:18:29 544

转载 Hive SQL操作与函数自定义（一）

与传统SQL一致，并且概念简单的，本文没有详细说明或完全没有说明。另外，本文也没有按照官文一字不漏地翻译，只是提炼本人认为需要的。 1 DDL1.1 Create/Drop/Alter/Use Database1.1.1 Create DatabaseCREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database...

2018-05-03 11:17:04 2003

转载向Hive程序传递变量的三种方法

图 1 外部向Hive程序中传递变量的方法使用Hive编写程序最常用的方法是将Hive语句写到文件中，然后使用hive -f filename.hql来批量执行查询语句。经常需要将外部参数传入到hql语句中替换其中的变量来动态执行任务，比如动态设定数据库名、表名、时间值、字段序列等变量，以达到脚本泛化执行的目的。1) 方法1：字符串、正则、模板引擎等暴力方式替换最简单也最暴力的方式，是在hql文件...

2018-05-03 11:07:34 1749

llama3 study

2024-07-25

tensorrt ppt资料

tensorrt的教程，和相关的资料，案例，供大家学习

2024-07-09

GPU-知识点资料合集

bank_conflicts coalescing

2023-08-03

Pro Go The Complete Guide -go语言学习最新书籍

Best-selling author Adam Freeman explains how to get the most from Go, starting from the basics and building up to the most advanced and sophisticated features. You will learn how Go builds on a simple and consistent type system to create a comprehensive and productive development experience that produces fast and robust applications that run across platforms 参见：https://www.amazon.com/Pro-Go-Complete-Programming-Efficient/dp/1484273540/ref=sr_1_1?crid=1K22H21ZB1EIZ&keywords=Pro+Go+The+Complete+G

2023-06-19

扩散模型讲义美国大学之一

2023-03-28

Advanced_Programming_in_the_UNIX_Environment，_3rd

Advanced_Programming_in_the_UNIX_Environment，_3rd_Edition very good book for unix user

2018-11-30

Pattern_Recognition_and_Big_Data

Pattern_Recognition_and_Big_Data 很好的资源，对于学习大数据的朋友来说

2018-09-07

图论引导中文

中文版本图论引导

2018-09-05

现代图论--------------

现代图论研究生教材适合大家学习与总结了

2018-09-05

Deep_Learning_Quick_Reference

Deep_Learning_Quick_Reference, a cookbook for deep learning

2018-09-01

Convex Optimization Algorithms

Convex Optimization Algorithms, understand convex optimization algorithms, this is good chances

2018-09-01

Guide.to.Medical.Image.Analysis.Methods.and.Algorithms

Guide.to.Medical.Image.Analysis.Methods.and.Algorithms very good book for computer vision

2018-09-01

machine learning algorithm

machine learning algorithm 想学习的可以好好学学了

2018-04-02

Python Machine Learning Machine Learning and Deep Learning

Python Machine Learning Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow, 2nd Edition 很受推荐

2018-03-27

Data Structures and Algorithms Using Python and C++

Data Structures and Algorithms Using Python and C++ 数据结构与算法方面的书籍

2018-03-27

R_for_Data_Science

R_for_Data_Science_－_Import，_Tidy，_Transform，_Visualize_and_Model_Data.rar

2018-03-27

深度学习之Pytorch

国内少有的学习 pytorch的资料,适合初学者, 希望对大家有帮助,清晰版本

2018-03-27

Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow

Table of Contents Giving Computers the Ability to Learn from Data Training Simple Machine Learning Algorithms for Classification A Tour of Machine Learning Classifiers Using Scikit-Learn Building Good Training Sets - Data Preprocessing Compressing Data via Dimensionality Reduction Learning Best Practices for Model Evaluation and Hyperparameter Tuning Combining Different Models for Ensemble Learning Applying Machine Learning to Sentiment Analysis Embedding a Machine Learning Model into a Web Application Predicting Continuous Target Variables with Regression Analysis Working with Unlabeled Data - Clustering Analysis Implementing a Multilayer Artificial Neural Network from Scratch Parallelizing Neural Network Training with TensorFlow Going Deeper - The Mechanics of TensorFlow Classifying Images with Deep Convolutional Neural Networks Modeling Sequential Data using Recurrent Neural Networks

2018-03-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

llama3 study

tensorrt ppt资料

GPU-知识点资料合集

Pro Go The Complete Guide -go语言学习最新书籍

扩散模型讲义 美国大学之一

Advanced_Programming_in_the_UNIX_Environment，_3rd

Pattern_Recognition_and_Big_Data

图论引导 中文

现代图论--------------

Deep_Learning_Quick_Reference

Convex Optimization Algorithms

Guide.to.Medical.Image.Analysis.Methods.and.Algorithms

machine learning algorithm

Python Machine Learning Machine Learning and Deep Learning

Data Structures and Algorithms Using Python and C++

R_for_Data_Science

深度学习之Pytorch

Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow

Approximate.Dynamic.Programming.2011

计算群体智能基础

Swarm Intelligence Principles Advances and Applications

Reinforcement Learning With Open A TensorFlow and Keras Using Python.pdf

Fundamentals of Deep Learning完整非扫描版本2017

Data Wrangling with R

NLTK基础教程-用NLTK和Python库构建机器学习应用2017-06

Text Mining in Practice with R 2017.12

Text_Mining－From_Ontology_Learning_to_Automated_Text_Processing_Applications

Python Natural Language Processing最新版本

Mastering Scipy

Elegant SciPy

Tensorflow 机器学习参考手册2007

reinforcement learning An Introduction 第二版

Spark大数据处理技术 带标签 完整版

TensorFlow技术解析与实战 高清晰完整版- 2017新书

TENSORFLOW深度学习

模式分类11

集体编程智慧

敏捷软件开发：原则、模式与实践

面向对象方法原理与实践

ollydbg 教程

空空如也

扩散模型讲义美国大学之一

图论引导中文

Spark大数据处理技术带标签完整版

TensorFlow技术解析与实战高清晰完整版- 2017新书