Learn_ZhangK的博客

积淀,薄发;分享,进步。

大数据中常用脚本--awk进行统计分析 SQL

1.简介   1.1国际惯例   按照国际惯例先来理论的介绍。 awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。 awk有...

2018-05-21 15:22:57

阅读数 269

评论数 0

大数据中常用脚本--grep

1.简介1.1国际惯例按照国际惯例先来理论的介绍。grep则是分析一行信息, 若当中有我们所需要的信息,就将该行拿出来。类似的上一篇中,cut是将一行信息当中,取出某部分我们想要的。它能使用正则表达式搜索文本,并把匹配的行打印出来。2.常用选项2.1 grep的格式grep [-acinv] [-...

2018-05-11 18:25:09

阅读数 119

评论数 0

大数据中常用脚本--cut

1.简介1.1 国际惯例按照国际惯例先来理论的介绍。cut是在Linux里非常常用的一个命令,cut命令是一个选取命令,其功能是将文件中的每一行”字节” ”字符” ”字段” 进行剪切,选取我们需要的,并将这些选取好的数据输出至标准输出。执行过程:选取命令通常是针对一行一行的数据来进行分析的, 并不...

2018-05-11 17:56:56

阅读数 317

评论数 0

大数据中常用脚本--sort(二)

1.简介1.1国际惯例按照国际惯例先来理论的介绍。sort是在Linux里非常常用的一个命令,管排序的。工作原理:sort将文件的每一行作为一个单位,相互比较,比较原则是从首字符向后,依次按ASCII码值进行比较,最后将他们按升序输出。在其中我们会遇到需要数值排序的,别急,慢慢来,都是干货。3.(...

2018-05-10 10:53:48

阅读数 115

评论数 0

大数据中常用脚本--sort(一)

1.简介1.1国际惯例按照国际惯例先来理论的介绍。sort是在Linux里非常常用的一个命令,管排序的。工作原理:sort将文件的每一行作为一个单位,相互比较,比较原则是从首字符向后,依次按ASCII码值进行比较,最后将他们按升序输出。在其中我们会遇到需要数值排序的,别急,慢慢来,都是干货。2.常...

2018-05-09 21:06:13

阅读数 246

评论数 0

大数据中常用脚本--解压

1.解压tar –xvf file.tar //解压 tar包 tar -xzvf file.tar.gz //解压tar.gz tar -xjvf file.tar.bz2   //解压 tar.bz2 tar –xZvf file.tar.Z   //解压tar.Z unrar e file....

2018-05-08 19:44:41

阅读数 208

评论数 0

大数据中常用脚本--awk

[root@www ~]# last -n 5 <==仅取出前五行 root pts/1 192.168.1.100 Tue Feb 10 11:21 still logged in root pts/1 192.168.1.100 Tue Feb 1...

2018-05-08 16:34:15

阅读数 290

评论数 0

Hadoop集群作业调度算法

1.简介  分布式文件系统在调度作业的时候可以通过参数来设置job作业调度。开门见山,常见的有三种, 先进先出FifoScheduler,默认的调度算法,先进先出的方式处理应用,只有一个队列可提交应用,没有应用优先级可以配置; 公平调度器FairScheduler,多队列的,多用户共享资源....

2018-01-23 15:36:00

阅读数 217

评论数 0

摘录机器学习的基本知识以及学习路线

每当提到机器学习,大家总是被其中的各种各样的算法和方法搞晕,觉得无从下手。确实,机器学习的各种套路确实不少,但是如果掌握了正确的路径和方法,其实还是有迹可循的,这里我推荐SAS的Li Hui的这篇博客,讲述了如何选择机器学习的各种方法。 另外,Scikit-learn 也提供了一幅清晰的路线...

2017-11-24 09:35:20

阅读数 182

评论数 0

机器学习面试系列七

151.在下面哪种情况下,一阶梯度下降不一定正确工作(可能会卡住)?   答案:(B)   这是鞍点(Saddle Point)的梯度下降的经典例子。另,本题来源于:https://www.analyticsvidhya.com/blog/2017/01/must-know-q...

2017-11-20 14:16:10

阅读数 466

评论数 0

机器学习面试系列六

101.深度学习(CNN RNN Attention)解决大规模文本分类问题   https://zhuanlan.zhihu.com/p/25928551 102.如何解决RNN梯度爆炸和弥散的问题的?   本题解析来源:http://blog.csdn.n...

2017-11-20 14:12:32

阅读数 306

评论数 0

机器学习面试系列五

81.Nave Bayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是:(C)    A.各类别的先验概率P(C)是相等的   B.以0为均值,sqr(2)/2为标准差的正态分布   C.特征变量X的各个维度是类别条件独立随机变量   D.P(X|C)是高斯分布   @...

2017-11-20 14:09:32

阅读数 301

评论数 0

机器学习面试系列四

61.说说梯度下降法   @LeftNotEasy,本题解析来源:http://www.cnblogs.com/LeftNotEasy/archive/2010/12/05/mathmatic_in_machine_learning_1_regression_and_gradient_des...

2017-11-20 14:07:20

阅读数 626

评论数 0

机器学习面试系列三

41.线性分类器与非线性分类器的区别以及优劣   如果模型是参数的线性函数,并且存在线性分类面,那么就是线性分类器,否则不是。   常见的线性分类器有:LR,贝叶斯分类,单层感知机、线性回归   常见的非线性分类器:决策树、RF、GBDT、多层感知机   SVM两种都有(看线性核还是高斯核)   ...

2017-11-20 13:52:40

阅读数 421

评论数 0

机器学习面试系列二

21.请大致对比下plsa和LDA的区别   pLSA中,主题分布和词分布确定后,以一定的概率(、)分别选取具体的主题和词项,生成好文档。而后根据生成好的文档反推其主题分布、词分布时,最终用EM算法(极大似然估计思想)求解出了两个未知但固定的参数的值:(由转换而来)和(由转换而来)。   文档...

2017-11-20 13:51:05

阅读数 341

评论数 0

机器学习面试系列一

1.请简要介绍下SVM   SVM,全称是support vector machine,中文名叫支持向量机。SVM是一个面向数据的分类算法,它的目标是为确定一个分类超平面,从而将不同的数据分隔开。   扩展:这里有篇文章详尽介绍了SVM的原理、推导,http://blog.csdn.net/v...

2017-11-20 13:48:48

阅读数 262

评论数 0

java中json与jsonp这对暗号的使用

按照国际惯例还是说下本期主角jsonp的基本概念。

2017-04-21 18:47:33

阅读数 1028

评论数 0

记录常见的输入输出流的写法

按照国际惯例 ,先来简单介绍下IO的概念和应用场景。 1.什么是IO     Java中I/O操作主要是指使用Java进行输入,输出操作. Java所有的I/O机制都是基于数据流进行输入输出,这些数据流表示了字符或者字节数据的流动序列。Java的I/O流提供了读写数据的标准方法。任何Java中...

2017-04-20 11:18:13

阅读数 799

评论数 0

针对Spring的工作原理的记录

1.Spring简介 简单介绍,spring是J2EE应用程序框架,是轻量级的IoC和AOP的容器框架,主要是针对javaBean的生命周期进行管理的轻量级容器,可以单独使用,也可以和Struts框架,ibatis框架等组合使用。 2.Spring两大特点 2.1 IoC(Inversion...

2017-04-07 10:43:02

阅读数 349

评论数 0

针对项目中用到多个拦截器的一些想法和思考

本文基于Springmvc的拦截器进行分析和总结。只是在项目中用到了拦截器的多个使用场景,有点归纳姑且记录下。 按照国际惯例,文字记录下什么是Springmvc的拦截器以及拦截器的具体方法(虽然文字难咀,但是回头看文字的提炼,就更加印象深刻了)。 1介绍 不罗嗦三点: 1.1什么是拦截器 ...

2017-03-17 14:35:32

阅读数 1411

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭