- 博客(25)
- 资源 (12)
- 收藏
- 关注
原创 大数据中常用脚本--awk进行统计分析 SQL
1.简介 1.1国际惯例 按照国际惯例先来理论的介绍。awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk,gawk 是 AWK 的 G...
2018-05-21 15:22:57 1006
原创 大数据中常用脚本--grep
1.简介1.1国际惯例按照国际惯例先来理论的介绍。grep则是分析一行信息, 若当中有我们所需要的信息,就将该行拿出来。类似的上一篇中,cut是将一行信息当中,取出某部分我们想要的。它能使用正则表达式搜索文本,并把匹配的行打印出来。2.常用选项2.1 grep的格式grep [-acinv] [--color=auto] '搜寻字符串' filename常用的选项与参数:-a :将 binary...
2018-05-11 18:25:09 470
原创 大数据中常用脚本--cut
1.简介1.1 国际惯例按照国际惯例先来理论的介绍。cut是在Linux里非常常用的一个命令,cut命令是一个选取命令,其功能是将文件中的每一行”字节” ”字符” ”字段” 进行剪切,选取我们需要的,并将这些选取好的数据输出至标准输出。执行过程:选取命令通常是针对一行一行的数据来进行分析的, 并不是整篇信息分析。2.常用选项使用时的一般格式:cut -[n]b file cut -c file ...
2018-05-11 17:56:56 822
原创 大数据中常用脚本--sort(二)
1.简介1.1国际惯例按照国际惯例先来理论的介绍。sort是在Linux里非常常用的一个命令,管排序的。工作原理:sort将文件的每一行作为一个单位,相互比较,比较原则是从首字符向后,依次按ASCII码值进行比较,最后将他们按升序输出。在其中我们会遇到需要数值排序的,别急,慢慢来,都是干货。3.(接上)实际应用数据准备:$ cat facebook.txtgoogle 110 5000baidu ...
2018-05-10 10:53:48 365
原创 大数据中常用脚本--sort(一)
1.简介1.1国际惯例按照国际惯例先来理论的介绍。sort是在Linux里非常常用的一个命令,管排序的。工作原理:sort将文件的每一行作为一个单位,相互比较,比较原则是从首字符向后,依次按ASCII码值进行比较,最后将他们按升序输出。在其中我们会遇到需要数值排序的,别急,慢慢来,都是干货。2.常用选项2.1 sort的-u选项它的作用很简单,就是在输出行中去除重复行。[rocrocket@roc...
2018-05-09 21:06:13 684
原创 大数据中常用脚本--解压
1.解压tar –xvf file.tar //解压 tar包tar -xzvf file.tar.gz //解压tar.gztar -xjvf file.tar.bz2 //解压 tar.bz2tar –xZvf file.tar.Z //解压tar.Zunrar e file.rar //解压rarunzip file.zip //解压zip2.压缩tar –cvf jpg...
2018-05-08 19:44:41 590
原创 大数据中常用脚本--awk
[root@www ~]# last -n 5 <==仅取出前五行root pts/1 192.168.1.100 Tue Feb 10 11:21 still logged inroot pts/1 192.168.1.100 Tue Feb 10 00:46 - 02:28 (01:41)root pts/1 192.168.1.100 Mon Feb 9 11:41 - 18:30 (06:48)dmtsai pts/1 192
2018-05-08 16:34:15 693
原创 Hadoop集群作业调度算法
1.简介 分布式文件系统在调度作业的时候可以通过参数来设置job作业调度。开门见山,常见的有三种,先进先出FifoScheduler,默认的调度算法,先进先出的方式处理应用,只有一个队列可提交应用,没有应用优先级可以配置;公平调度器FairScheduler,多队列的,多用户共享资源.程序在运行的时候可以在客户端设置优先级,也可以设置抢占;容量调度器CapacitySchedule
2018-01-23 15:36:00 523
翻译 摘录机器学习的基本知识以及学习路线
每当提到机器学习,大家总是被其中的各种各样的算法和方法搞晕,觉得无从下手。确实,机器学习的各种套路确实不少,但是如果掌握了正确的路径和方法,其实还是有迹可循的,这里我推荐SAS的Li Hui的这篇博客,讲述了如何选择机器学习的各种方法。另外,Scikit-learn 也提供了一幅清晰的路线图给大家选择:其实机器学习的基本算法都很简单,下面我们就利用二
2017-11-24 09:35:20 401
翻译 机器学习面试系列七
151.在下面哪种情况下,一阶梯度下降不一定正确工作(可能会卡住)? 答案:(B) 这是鞍点(Saddle Point)的梯度下降的经典例子。另,本题来源于:https://www.analyticsvidhya.com/blog/2017/01/must-know-questions-deep-learning/。152.下图显示了训练过的3层卷积
2017-11-20 14:16:10 2414
翻译 机器学习面试系列六
101.深度学习(CNN RNN Attention)解决大规模文本分类问题 https://zhuanlan.zhihu.com/p/25928551102.如何解决RNN梯度爆炸和弥散的问题的? 本题解析来源:http://blog.csdn.net/han_xiaoyang/article/details/51932536 为了解决梯
2017-11-20 14:12:32 778
翻译 机器学习面试系列五
81.Nave Bayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是:(C) A.各类别的先验概率P(C)是相等的 B.以0为均值,sqr(2)/2为标准差的正态分布 C.特征变量X的各个维度是类别条件独立随机变量 D.P(X|C)是高斯分布 @BlackEyes_SGC:朴素贝叶斯的条件就是每个变量相互独立。82.
2017-11-20 14:09:32 1269
翻译 机器学习面试系列四
61.说说梯度下降法 @LeftNotEasy,本题解析来源:http://www.cnblogs.com/LeftNotEasy/archive/2010/12/05/mathmatic_in_machine_learning_1_regression_and_gradient_descent.html 下面是一个典型的机器学习的过程,首先给出一个输入数据,我们的算法会通过一
2017-11-20 14:07:20 1966
翻译 机器学习面试系列三
41.线性分类器与非线性分类器的区别以及优劣 如果模型是参数的线性函数,并且存在线性分类面,那么就是线性分类器,否则不是。 常见的线性分类器有:LR,贝叶斯分类,单层感知机、线性回归 常见的非线性分类器:决策树、RF、GBDT、多层感知机 SVM两种都有(看线性核还是高斯核) 线性分类器速度快、编程方便,但是可能拟合效果不会很好 非线性分类器编程复杂,但是效果拟
2017-11-20 13:52:40 747
翻译 机器学习面试系列二
21.请大致对比下plsa和LDA的区别 pLSA中,主题分布和词分布确定后,以一定的概率(、)分别选取具体的主题和词项,生成好文档。而后根据生成好的文档反推其主题分布、词分布时,最终用EM算法(极大似然估计思想)求解出了两个未知但固定的参数的值:(由转换而来)和(由转换而来)。 文档d产生主题z的概率,主题z产生单词w的概率都是两个固定的值。 举个文档d产生主题z的
2017-11-20 13:51:05 1074
翻译 机器学习面试系列一
1.请简要介绍下SVM SVM,全称是support vector machine,中文名叫支持向量机。SVM是一个面向数据的分类算法,它的目标是为确定一个分类超平面,从而将不同的数据分隔开。 扩展:这里有篇文章详尽介绍了SVM的原理、推导,http://blog.csdn.net/v_july_v/article/details/7624837。 此外,这里有个视频
2017-11-20 13:48:48 603
原创 记录常见的输入输出流的写法
按照国际惯例 ,先来简单介绍下IO的概念和应用场景。1.什么是IO Java中I/O操作主要是指使用Java进行输入,输出操作. Java所有的I/O机制都是基于数据流进行输入输出,这些数据流表示了字符或者字节数据的流动序列。Java的I/O流提供了读写数据的标准方法。任何Java中表示数据源的对象都会提供以数据流的方式读写它的数据的方法。 Java.io是大多数面向数
2017-04-20 11:18:13 1364
原创 针对Spring的工作原理的记录
1.Spring简介简单介绍,spring是J2EE应用程序框架,是轻量级的IoC和AOP的容器框架,主要是针对javaBean的生命周期进行管理的轻量级容器,可以单独使用,也可以和Struts框架,ibatis框架等组合使用。2.Spring两大特点2.1 IoC(Inversion of Control)控制反转对象创建责任的反转,在spring中BeanFac
2017-04-07 10:43:02 493
原创 针对项目中用到多个拦截器的一些想法和思考
本文基于Springmvc的拦截器进行分析和总结。只是在项目中用到了拦截器的多个使用场景,有点归纳姑且记录下。按照国际惯例,文字记录下什么是Springmvc的拦截器以及拦截器的具体方法(虽然文字难咀,但是回头看文字的提炼,就更加印象深刻了)。1介绍不罗嗦三点:1.1什么是拦截器java里的拦截器是动态拦截action调用的对象。它提供了一种机制可以使开发者可以定义在一个act
2017-03-17 14:35:32 2239
原创 针对泛型的一些想法和思考
泛型是在java1.5后新加入的东西,这块内容使得java的封装性能更加强大,使用的时候也更加方便。但是这块内容又是比较难以理解的,基于此做此文记录自己的学习心得。泛型,具体的来说就是将java中操作的数据类型"参数化",使得我们在使用的时候可以把数据类型当成是一个参数,像普通的方式似的进行操作。这些应用很广泛,这种参数类型可以使用在类、接口以及方法定义中。明确一下几点:1.为什么使用
2017-03-13 16:32:16 383
原创 json在实际项目中的应用
用途1:表示名称 / 值对最简单的形式,可以用下面这样的 JSON表示 "名称/ 值对":{ "firstName": "Brett" }。但是,当将多个"名称/ 值对"串在一起时,JSON就会体现出它的价值了。首先,可以创建包含多个"名称/ 值对"的 记录,比如:{ "firstName": "Brett", "lastName":"McLaughlin"
2017-02-23 18:14:20 972
原创 建立java日期格式和日期数据操作的备忘
近来的项目中经常用到了日期为时间戳的操作,大的方向上说,在大型的java项目(电商,在线办公,云平台等)中也确实需要一个能区分的id号;在小的方向上,这也是java的基础部分。简单一句话,常用故而留下痕迹来加深印象。
2016-08-22 10:28:02 442
转载 web端基于java的文件上传下载
在Web应用系统开发中,文件上传和下载功能是非常常用的功能,今天来讲一下JavaWeb中的文件上传和下载功能的实现。 对于文件上传,浏览器在上传的过程中是将文件以流的形式提交到服务器端的,如果直接使用Servlet获取上传文件的输入流然后再解析里面的请求参数是比较麻烦,所以一般选择采用apache的开源工具common-fileupload这个文件上传组件。这个common-fileup
2016-05-30 14:23:27 305
win下的查找替换神器
2018-05-10
spark-2.0.2-bin-hadoop2.6
2018-05-10
poi方式导出excel(分多个sheet导出)
2016-12-21
基于java和jsp的省市联动的源码(ProCityAreas+mysql)
2016-12-14
基于php和Ajax省市县三级联动代码(jquery+php+mysql)
2016-12-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人