java
文章平均质量分 74
郭首志
这个作者很懒,什么都没留下…
展开
-
Spring SpringMVC
Spring Spring是一个开放源代码的设计层面框架,他解决的是业务逻辑层和其他各层的松耦合问题,因此它将面向接口的编程思想贯穿整个系统应用。Spring是于2003 年兴起的一个轻量级的Java 开发框架,由Rod Johnson创建。简单来说,Spring是一个分层的JavaSE/EE full-stack(一站式) 轻量级开源框架。概念:轻量——从大小与开销两方面而言Spri...转载 2018-10-11 09:06:52 · 283 阅读 · 0 评论 -
大数据项目架构思考
的阶段来看,越过炒作顶点的技术,通常被认为已经满足了技术可行性,进入了可实用的阶段。所以,对于大数据项目来说,技术上已经没有什么太大的问题了,无论从软件还是从人员来说,该填的空也都填得差不多了,剩下就是看整体项目建设中该考虑如何落地的问题。项目如何实施,第一步应该怎样走?为什么这样走?怎么样才算成功?大数据不缺情怀,汗牛充栋的大数据情怀之作,让大家打足鸡血,甚至产生宗教崇拜情节-不用大数据的都是邪...转载 2018-06-19 15:01:05 · 1421 阅读 · 0 评论 -
scala(5)
1.Scala高级语法1.1.柯里化(Currying)科里化是一个过程。柯里化(Currying)指的是将原来接受两个参数的方法变成新的接受一个单一参数的方法的过程。新的方法返回一个以原有第二个参数为参数的函数。// 我们看下这个方法的定义, 求2个数的和def add(x: Int, y: Int) = x + y// 那么我们应用的时候,应该是这样用:add(1,2)// 现在...原创 2018-06-08 09:23:43 · 257 阅读 · 0 评论 -
scala(4)
1.并发编程模型Akka1.1. Akka 介绍多线程开发要处理并发,锁,线程同步等一系列问题,一不小心,弄个大的bug,所以一般都不愿意自己动手写,能不能换一种思路,可以不可以搞一种更高级的抽象模型,让我想实现多线程应用的时候,不用再考虑这些底层问题呢?Akka是JVM平台上构建高并发、分布式和容错应用的工具包和运行平台。Akka是用 Scala语言编程的一个并发编程框架,该框架基于Act...原创 2018-06-08 09:21:19 · 210 阅读 · 0 评论 -
scala复习(3)
1.面向对象类: class 关键字修饰的对象: object 关键字修饰的类的实例:new 类() 类的实例对象Scala的类与Java、C++的类比起来更简洁,学完之后你会更爱Scala!!!对象: 用object关键字修饰的结构类: 用class 关键字修饰的类的实例(对象): new class1.1.对象1.1.1.单例对象Scala中没有静态方法和静态字段,没有...原创 2018-06-08 09:20:46 · 444 阅读 · 0 评论 -
scala复习
目标1:(初级)熟练使用scala编写Spark程序 目标2:(中级)动手编写一个简易Spark通信框架 目标3:(高级)为阅读Spark内核源码做准备2.Scala概述2.1.什么是Scala编程语言,java shell javascript函数式编程:函数式编程是一种编程思想,主要的思想把运算过程尽量写成一系列的函数调用。Scala是一种多范式的编程语言,其设计的初衷是...原创 2018-06-08 09:19:12 · 251 阅读 · 0 评论 -
面试(2)
1. 角色转变的本世纪的牛顿流程本世纪的牛顿 笔试 ,面试 提供入职材料,入职 大数据研发工程师自身的角度来看,简历(门面)电话邀约 笔试 给一套笔查看答案试题 认真对待 尽量把能写的都写上 _百度30分钟,1小时面试面对面的探讨技术 +探讨人生校招 - 理论功底招社 工作经历 (项目) 专业技能 1-3 轮 2轮 如果面试的轮次多,难度 状语从句:深...原创 2018-06-14 16:20:51 · 203 阅读 · 0 评论 -
人事面试大全
HR 常见问题一,请你自我介绍一下你自己?(面试官目的:深度了解求职者,看求职者基本的沟通和自我认知能力)没有:1.只说姓名,年龄,爱好等基本的信息后就没了。2.只重复简历里的内容,如工作经验就没了。3.讲述长篇和求职职位无关的内容没有礼貌,态度傲慢。5.介绍过短或过长。是:1.除基本信息外,可以介绍个人的独特的地方。2.强调跟应聘公司和应聘职位需要的开发技术和工作处理过程3.紧扣开发的职位特点和...转载 2018-06-14 16:19:40 · 717 阅读 · 0 评论 -
saprk版本的wordCount
import org.apache.spark.SparkConf ;import org.apache.spark.api.java.JavaPairRDD ;import org.apache.spark.api.java.JavaRDD ;import org.apache.spark.api.java.JavaSparkContext ;import org.apache.spar...原创 2018-06-21 17:49:32 · 224 阅读 · 0 评论 -
spark(3)
1。 RDD 上的算子RDD 上的所有的算子示例:http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html 1.1。 加入左外联盟右外联盟cogroup#join 只能作用于 k,v RDD [(Int,Int)]相当于 SQL 中的内关联join ,只返回两个RDD 根据K 可以关联上的结果在类型为(...原创 2018-06-21 15:19:37 · 198 阅读 · 0 评论 -
spark(2)
1. spark 任务运行的资源DIY 默认启动任务时, executor 占用worker 中所有的内核,每一个 executor 占用 1g内存。默认情况下,一个工作人员启动一个执行者 1.1。 火花提交任务提交时的常用选项:火花提交选项 的jar 包 参数spark-submit -master spark:// hdp-01:7077 --class xxxx jar 包 ...原创 2018-06-21 15:19:14 · 237 阅读 · 0 评论 -
spark(1)
spark-core 最核心,最基础的阶段 spark集群安装 任务的提交 RDD 抽象概念 弹性分布式数据集 方法 spark任务提交的机制 spark中的高级特性 :宽窄依赖,缓存,持久化,checkpoint,广播变量,累加器 spark on yarn spark HA spark-sql mysql hive 处理结构化数据的模块 spark-streaming 实时数...原创 2018-06-21 15:15:18 · 250 阅读 · 0 评论 -
分布式思想总结
在互联网大行其道的今天,各种分布式系统已经司空见惯搜索引擎,电,商网站,微博,微信,O2O平台..凡是涉及到大规模用户,高并发访问的,无一不是分布式。关于分布式系统,并没有一个标准答案,说某某架构一定是最好的。不同的业务形态所面对的挑战不一样,使用的架构设计也不一样,通常都需要具体业务具体分析。但不管那种业务,不管何种分布式系统,有一些基本的思想还是相通的。本文将对这些基本思想进行一个梳理汇总。分...转载 2018-06-21 15:08:01 · 953 阅读 · 0 评论 -
hdfs 复习
使用hadoop hdfs API 访问hdfs文件系统、-----------------------------------1.Configuration配置对象,加载配置文件addDefaultResource()从classpath加载2.fileSystemDistributedFileSystem,是FileSystem的一个实现,用于和hadoop的hdfs进行交互3.Path文件或...原创 2018-05-29 22:05:28 · 158 阅读 · 0 评论 -
mysql安装
原创 2018-06-05 14:56:23 · 161 阅读 · 0 评论 -
intellij idea使用教程
实时代码模板(Live Templates)我们先来看一个gif图:大兄弟,你看清我的操作了么?这个就是实时代码模板的功能。我们来看一下怎么用它。看了这个图,你大概已经知道怎么建立一个新的模板了。下面将一下模板的变量。第一个gif图里用到了两个模板,一个是系统定义的psvm(private static void main的缩写),使用它我们可以快速创建main函数。另一个是我们自定义的syso(...转载 2018-06-05 14:16:32 · 286 阅读 · 0 评论 -
Webservice的实现
接口WebService.javaimport javax.jws.WebMethod;@ javax.jws.WebService公共接口WebService { @WebMethod String sayHello(String name);}WebServiceImpl.java@ javax.jws.WebService公共类WebServiceImpl实现WebServ...原创 2018-06-27 10:51:31 · 139 阅读 · 0 评论 -
朴素贝叶斯算法
高中数学中的知识朴素贝叶斯算法简单高效,在处理分类问题上,是应该首先考虑的方法之一。 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。这个定理解决了现实生活里经常遇到的问题:已知某条件概率,如何得到两个事件交换后的概率,也就是在已知P(A | B)的情况下如何求得P(B | A)这里先解释什么是条件概率: 表示事件B已发生的前提下,事件A发生的概率,叫做事件B发生...转载 2018-06-28 16:52:50 · 458 阅读 · 0 评论 -
flume
1.FLUME ------------------------------ 1.Flume源于cloudera公司,用于自己公司日常数据生产收集, Flume OG, 2.Flume NG,由Apache进行维护 3.Flume是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日志数据.2.Flume的组成----- ------------------------- 1.age...原创 2018-07-16 00:04:14 · 285 阅读 · 0 评论 -
js页面埋点
页面埋点的作用,其实就是用于流量分析。而流量的意思,包含了很多:页面浏览数(PV)、独立访问者数量(UV)、IP、页面停留时间、页面操作时间、页面访问次数、按钮点击次数、文件下载次数等。而流量分析又有什么用处:1、提高网站的转化率 根据页面埋点可得到一些重要信息,它告诉你用户对网站的反应,以及如何提高网站流量、改进网站性能,了解用户访问网站的行为,为更好地满足用户需求提供支...转载 2018-09-07 20:45:32 · 1682 阅读 · 0 评论 -
flume自定义source
我们了解到了flume的底层实现原理之后,我们不仅可以根据flume自身提供的API,实现Source的定义,还可以根据项目的实际需求,编写我们自己的Source,比如Source可以是从网络上下载一个文件,亦或者是从数据库中查询数据,总之都能灵活实现我们自己的需求!一、新建java工程项目,在项目中添加flume的核心jar包:flume-ng-configuration-1.7.0...转载 2018-08-24 18:38:08 · 2865 阅读 · 0 评论 -
电商推荐系统,用户画像,精准营销
推荐算法:原创 2018-08-16 23:19:53 · 2351 阅读 · 0 评论 -
sql练习
准备数据建表语句CREATE TABLE students(sno VARCHAR(3) NOT NULL, sname VARCHAR(4) NOT NULL,ssex VARCHAR(2) NOT NULL, sbirthday DATETIME,class VARCHAR(5))CREATE TABLE courses(cno VARCHAR(5) NOT NULL...原创 2018-08-22 09:51:04 · 421 阅读 · 0 评论 -
Azkaban简介和使用
概述为什么需要工作流调度系统 l 一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序,java程序,mapreduce程序、hive脚本等l 各任务单元之间存在时间先后及前后依赖关系l 为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行; 例如,我们可能有这样一个需求,某个业务系统每天产生20G原始数据,我们每天都要对其进行处理,...转载 2018-08-18 22:54:49 · 16921 阅读 · 1 评论 -
数据采集与埋点简介之 代码埋点、可视化埋点与无痕埋点
具备条件:java script 脚本编程jsp、asp页面编程根据需求文档中要求的需要做记录的信息博主做移动手机系统中的数据采集与埋点也有近两年,那段时间内一方面是集中在具体的开发和问题细节处理,另外一方面则是在把采集系统适配到不同的平台手机、平板、tv、车载的过程中,有Android和C++两个版本。有一天见到了“神策数据”的这篇博文,发现总结得太好了,有点相见恨晚的感觉。这篇...转载 2018-08-18 20:31:34 · 2123 阅读 · 0 评论 -
构建一个跨机房的Hadoop集群,有非常多的技术难点(颠覆你以往的认知)
注:本文原作者罗李,花名鬼厉,阿里分布式团队创建之初的第一批员工,从事分布式计算、分布式存储和Hadoop系统的研发,目前负责分布式存储团队的所有技术和管理。(因为感觉这篇文章非常棒,让人思考角度发生很大变化,转载之)作为一个Hadoop初级入门者,不得不感慨它的beauty,以前把问题想的太简单了。技术挑战要构建一个跨机房的Hadoop集群,有非常多的技术难点:难点1:NameN...转载 2018-08-18 17:20:35 · 5932 阅读 · 0 评论 -
Dubbo是什么
1. Dubbo是什么?Dubbo是一个分布式服务框架,致力于提供高性能和透明化的RPC远程服务调用方案,以及SOA服务治理方案。简单的说,dubbo就是个服务框架,如果没有分布式的需求,其实是不需要用的,只有在分布式的时候,才有dubbo这样的分布式服务框架的需求,并且本质上是个服务调用的东东,说白了就是个远程服务调用的分布式框架(告别Web Service模式中的WSdl,以服务者与消费者...转载 2018-08-18 13:06:21 · 154 阅读 · 0 评论 -
大数据之实时流处理常用框架
实时流处理简单概述:实时是说整个流处理相应时间较短,流式技算是说数据是源源不断的,没有尽头的。实时流处理一般是将业务系统产生的数据进行实时收集,交由流处理框架进行数据清洗,统计,入库,并可以通过可视化的方式对统计结果进行实时的展示。本文涉及到的框架或技术有 Flume,Logstash,kafka,Storm, SparkStreaming等。 实时流处理的的流程与技术选型 :...转载 2018-08-08 20:35:53 · 3293 阅读 · 0 评论 -
黑卡定义以及,判定检索查封实现逻辑
黑卡(iOS平台事件)所谓黑卡,即来源不明的信用卡,这里特指与iTunes账户绑定的非法信用卡。也指不在我国境内销售的充值卡类型如苹果充值卡等中文名黑卡所谓黑卡,即来源不明的信用卡,这里特指与iTunes账户绑定的非法信用卡。在淘宝上搜索“iTunes”,可以得到近2000条结果,商品名包括“iTunes账号”“iTunes应用兑换码”“iTunes代购”等。一位知情人士透...原创 2018-08-12 22:29:26 · 1025 阅读 · 1 评论 -
黑卡逻辑
黑卡产生的历史1.所谓的黑卡,一般通指的利用过支付漏洞或者是盗刷信用卡等通过非法途径获得的游戏点卡及游戏CDK(游戏奖励物品),积分等有价值的虚拟产品2.一般的电商都有用户的完整信息,如果出现支付问题,可以通过法律途径追诉使用的用户3.某些国家(比如美国)刷信用卡不用 输密码,只需要输卡号,持卡人和卡背面数字就可以4特别是某些公司或某类业务(如:游戏,积分,虚拟物品...原创 2018-08-08 01:50:53 · 1228 阅读 · 0 评论 -
大数据面试题大全
卡夫卡的消息包括哪些信息一个卡夫卡的消息由一个固定长度的报头和一个变长的消息体体组成标题部分由一个字节的魔法(文件格式)和四个字节的CRC32(用于判断身体消息体是否正常)构成。当魔术的值为1的时候,会在魔术和CRC32之间多一个字节的数据:属性(保存一些相关属性,比如是否压缩,压缩格式等等);如果魔术的值为0时,那么不存在属性属性文教释义体育的英文由ñ个字节构成的一个消息体,包含了具体...转载 2018-08-14 19:47:45 · 32306 阅读 · 3 评论 -
mongonDB的概念和集群的使用,与spark的组合
MongonDB的实现 项目能否做 能不能做 条件检测;环境检测; 信息全不全 两台ngnixRedis集群搭建好 Mongdb集群Mysql集群 指标和业务功能Mongodb一台mongon,mongon集群两台mongdbRedis Mongodb和redis的效果一样多台MongoDB HA部署客户端发送请...原创 2018-08-06 22:32:18 · 323 阅读 · 0 评论 -
redis
redis快速上手 简介 redis是一个基于内存的 nosql框架(数据库)。redis中也是存储key-value形式的数据Redis存储的数据类型有五种:字符(string)、散列(hash)、列表(list)、集合(set)、有序集合(sorted set)这里的5种数据结构,指的key-value中的value。 安装 解压redis压缩包[...原创 2018-07-21 11:24:25 · 188 阅读 · 0 评论 -
hive 安装教程
所有Hadoop的子项目,如Hive, Pig,和HBase 支持Linux的操作系统。因此,需要安装Linux OS。以下是为Hive的安装执行的简单步骤:第1步:验证JAVA安装在Hive安装之前,Java必须在系统上已经安装。使用下面的命令来验证是否已经安装Java:$ java –version如果Java已经安装在系统上,就可以看到如下回应:java version "1.7.0_71"...转载 2018-06-04 21:48:14 · 1008 阅读 · 0 评论 -
排序算法总结
1 快速排序(QuickSort)快速排序是一个就地排序,分而治之,大规模递归的算法。从本质上来说,它是归并排序的就地版本。快速排序可以由下面四步组成。(1) 如果不多于1个数据,直接返回。(2) 一般选择序列最左边的值作为支点数据。(3) 将序列分成2部分,一部分都大于支点数据,另外一部分都小于支点数据。(4) 对两边利用递归排序数列。快速排序比大部分排序算法都要快。尽管我们可以在某些特殊的情况...原创 2018-06-04 21:46:37 · 118 阅读 · 0 评论 -
hadoop(4)
1. HDFS分布式文件系统2. HDFS集群的搭建(1) Hdfs-site.xml① Hdfs公开的访问地址② Namenode的元数据目录③ Datanode的元数据目录④ SecondaryNamenode(2) Hadoop-env.sh① 添加你的javahome路径3. HDFS的常用客户端命令(1) Put、get、mv、delete、ls.....4. 常用的hdfs客户端API...原创 2018-06-02 23:48:05 · 248 阅读 · 0 评论 -
数据可视化 echart
制作报表可以在百度echat中选取相应的饼状图柱状图折线图等实现数据可视化原创 2018-05-11 15:10:43 · 895 阅读 · 0 评论 -
案例分析7 共享单车数据定位
1. 共享单车GeoHash定位案例单词:longitude(经度),latitude(维度)数据: 1:单车信息数据,触发事件 访问的url 时间 用户的id 经度 维度 ...原创 2018-05-11 14:49:27 · 6039 阅读 · 0 评论 -
Linux基本用法
windows__----------------Desktop OsLinux+VMware-------------Linux服务器Os稳定安全VMware-----------------Oracle vbox------------------Host----------------Linux | mac——————————————————...原创 2018-05-03 16:23:54 · 239 阅读 · 0 评论 -
数据分析案例3 海量数据分析---根据Ip地址计算归属地的需求
给定的access.log是电信运营商的用户上网数据,第一个字段是时间,第二个字段是ip地址,第三更字段是访问的网站,其他字段可以忽略不计。 ip.txt是ip地址和归属地的规则数据,里面的数据是根据ip地址的十进制从高到低排序。第一个字段是网段的起始IP地址,第二个字段是网段的结束IP地址,第三个字段是网段的起始IP地址对应的十进制,第四个字段是网段的结束IP地址对应的十进制,第...原创 2018-05-02 19:56:46 · 2575 阅读 · 0 评论