自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小牛学堂

大数据云计算,算法

原创 spark与spring集成做web接口

需要实现的功能:写访问spark的接口,也就是从web上输入网址就能把我们需要的信息通过提交一个job然后返回给我们json数据。 成果展示: 通过url请求,然后的到一个wordcount的json结果(借助的是谷歌浏览器postman插件显示的,直接在浏览器上输入网址是一样的效果) 使用...

2017-11-03 14:40:47 8206 6

原创 大数据与深度学习区别?

简单来说: 1)深度学习(Deep Learning)只是机器学习(Machine Learning)的一种类别,一个子领域。机器学习 > 深度学习 2)大数据(Big Data)不是具体的方法,甚至不算具体的研究学科,而只是对某一类问题,或需处理的数据的描述。 具体来说: 1)机器...

2019-02-21 10:08:51 724 0

原创 大数据具体行业的应用?

从推送起家,依托推送产品的海量终端覆盖,同时发展了大数据和移动营销业务,目前已成为基于大数据的移动互联网综合服务提供商。 案例 智能推送:通过精准的大数据分析,做到在合适的时间,合适的地点,把合适的消息,推送给合适的人。让推送变的更精准,让运营变得更精细化。 智慧旅游:与各省市旅游局合作,通过个...

2019-02-20 10:41:31 216 0

原创 个人如何获取大数据

有三个来源 1)政府职能部门开放的数据,如国家统计局,可以访问官网获取; 2)互联网平台提供商,如twitter、facebook、百度、新浪微博、淘宝,通过开放接口或者专业工具获取; 3)数据资源商业机构,如数据堂,有免费和收费数据; ...

2019-02-19 13:09:18 1344 1

原创 大数据方面核心技术有哪些?

总的来说大数据有5个部分。数据采集,数据存储,数据清洗,数据挖掘,数据可视化。数据采集有硬件采集,如OBD,有软件采集,如滴滴,淘宝。数据存储就包括NOSQL,hadoop等等。数据清洗包括语议分析,流媒体格式化等等。数据挖掘包括关联分析,相似度分析,距离分析,聚类分析等等。数据可视化就是WEB的...

2019-02-18 14:14:20 455 0

原创 Scala 在大数据处理方面有何优势?

我想大部分应用开发程序员,最关键是看有什么类库合适的方便特定领域的应用开发。就像ruby有rails做web开发,你可以去论证ruby优缺点,但实际上应用开发效率提升很大程度上依靠类库。 现在Spark是大数据领域的杀手级应用框架,BAT,我们现在几个领域巨头的客户(有保密协议不方便透露)都全面使...

2019-01-30 17:02:26 847 0

原创 大数据公司 Splunk 和 Cloudera 的核心竞争力在哪里?

Splunk面向的是细分市场,分析Machine Log,并在上面集成了完整的专用模块。所有用例都是相对专门的领域,因此可以对这些进行专门优化。它的核心竞争力应该是领域知识和抽象,以及相关的优化和功能,而不是大数据。如果我没搞错的话,Splunk刚出的时候是单机的。 Cloudera以及类似的两家...

2019-01-29 17:32:38 1166 0

原创 国内有哪些大数据公司?

国内大数据公司名单汇总 大数据近几年来可谓蓬勃发展,它不仅是企业趋势,也是一个改变了人类生活的技术创新。大数据对行业用户的重要性也日益突出。掌握数据资产,进行智能化决策,已成为企业脱颖而出的关键。因此,越来越多的企业开始重视大数据战略布局,并重新定义自己的核心竞争力。本文整理了在中国境内活跃的...

2019-01-28 15:55:49 3184 0

案例分析-爬虫(51job网站的信息)

爬虫介绍 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 网络爬虫主要应用有两个方面,一方面用于检索,例如百度,谷歌等网站;另一方面用于爬...

2019-01-13 16:14:40 444 0

案例分析-电影评分分析

电影评分分析数据原始数据展示json格式说明数据字段含义需求1.每个用户评分最高的10部电影评分信息(用户最喜爱的十部电影)2.每个用户的uid和评分的平均值。3.最大方(评分平均值高)的n个用户的uid和评分平均值。4.最热门的10部电影id和评价次数。5.评价最高的10部电影id和评分均值需求...

2019-01-09 14:42:54 1146 0

案例分析-电影评分分析

电影评分分析数据原始数据展示json格式说明数据字段含义需求1.每个用户评分最高的10部电影评分信息(用户最喜爱的十部电影)2.每个用户的uid和评分的平均值。3.最大方(评分平均值高)的n个用户的uid和评分平均值。4.最热门的10部电影id和评价次数。5.评价最高的10部电影id和评分均值需求...

2019-01-08 21:32:24 822 0

原创 mybatis从0到1

mybatis从零到一学习实战依赖的引入配置数据库连接功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公...

2019-01-03 15:37:46 125 0

原创 java基础增强案例-电影评分

原始数据: 字段说明: Movie 电影的id Rate 电影评分 Timestamp 评论时间 Uid 用户id 需求: 每个用户评分最高的10部电影评分信息(用户最喜爱的十部电影) 每个用户的uid和评分的平均值 最大方(评分平均值高)的n个...

2018-12-06 16:33:51 298 0

原创 日志分析

对平台操作行为记录(现版本还没实施,等上线有需求,有数据了做) 这个主要通过日志进行记录,这个不是对用户进行展示的,是给我们内部去看的,用来改进我们的产品的。 主要进行要记录的日志信息有(这个根据需求来加) ip sessionid 日志级别 userid 点击时间 请求的url ...

2018-04-04 11:52:38 161 0

原创 windows开启WiFi热点

第一步,启用cmd 第二步,在命令行中输入(用来创建一个虚拟网卡) netsh wlan set hostednetwork ssid=您想要的无线网络的名称 key=您想要设置的密码 第三步,在命令行中输入(用来启动wifi) netsh wlan start hostednetwork...

2018-03-29 13:36:48 2176 0

原创 星形模型和雪花模型

一、概述 在多维分析的商业智能解决方案中,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑型数据的模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。 当所有维表都直接连接到" 事实表"上时,整个图解就像星星一样,故将该模型称为星型模...

2018-01-29 14:54:58 559 0

原创 自己写UDF(Hive)

目标:使用java自己写一个UDF函数 1、先开发一个java类,继承UDF,并重载evaluate方法 package com.udf; import org.apache.hadoop.hive.ql.exec.UDF; import org.apache.hadoop.io.Text...

2018-01-28 22:18:07 438 0

原创 hive累积报表hql

问题:下面是一个员工的业绩数据,数据格式是username,date,money,数据如下 A,2015-01,5 A,2015-01,15 B,2015-01,5 A,2015-01,8 B,2015-01,25 A,2015-01,5 A,2015-02,4 A,2015-02,6 B,...

2018-01-28 22:10:24 836 0

原创 查看linux负载的情况

查看一个服务器的负载情况一般是从内存,cpu的使用量来看的,还有就是磁盘io和网络io,下面会分别对其进行监控(环境sentos6.7) 内存负载情况: free这个命令可以查看内存的使用情况可剩余情况:具体使用如图 cpu的负载情况: 使用top来动态的显示,直接在命令行中输入 to...

2018-01-26 14:34:43 5517 0

原创 linux的awk和sed等命令比较

对于文本的操作分为两种操作,一种是按行操作,一种是按列操作。 简单的命令有grep(行操作)和cut(列操作)。 复杂点的有sed(行操作)和awk(列操作)。 样例文本 hello tom hi marry how are you 什么是行操作:简单的例子就是,获取上面文本中带有hel...

2018-01-22 15:41:45 677 0

原创 jvm参数说明

GC算法 标记-清除算法(Mark-Sweep) 1、标记出所有需要回收的对象,在标记完成后统一回收所有被标记的对象 2、在标记完成后统一回收所有被标记的对象 缺点:一个是效率问题,标记和清除两个过程的效率都不高; 另一个是空间问题,标记清除之后会产生大量不连续的内存碎片,空间碎片太...

2018-01-21 22:22:03 149 0

转载 Hbase索引

Hbase只有rowkey有索引,其索引形式是LSM. 讲LSM树之前,需要提下三种基本的存储引擎,这样才能清楚LSM树的由来: 哈希存储引擎 是哈希表的持久化实现,支持增、删、改以及随机读取操作,但不支持顺序扫描,对应的存储系统为key-value存储系统。对于key-value的插入以...

2018-01-18 14:38:08 991 0

原创 redis-shell操作

zset没有进行说明package javaa.redis; /** * redis的shell操作 * redis的五种类型:String hash set list zset * @author 韩利鹏 * */ public class RedisShell { //flus...

2018-01-02 14:56:40 1137 0

原创 redis集群操作-添加节点和删除节点

主要任务:为已有的集群添加节点,其中包括master和slave,master主要给其分槽,删除节点,其中包括master和slave节点,master需要先把数据槽先归还,然后再删除节点。一、原始集群(6节点 3主3从): (1)启动集群:[root@bhz004 ~]# /usr/local...

2018-01-02 14:51:48 1885 0

原创 redis跟spring结合

主要是以下配置文件,里面需要添加的redis.properties等这些文件,根据配置自己添加<?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.spri...

2018-01-02 14:25:00 188 0

原创 IDEA2018激活

2018年的idea的注册激活

2017-12-30 22:41:52 1965 0

原创 linux防火墙

方法一:命令行方式 1:开放端口:/sbin/iptables -I INPUT -p tcp –dport 8080 -j ACCEPT 2:保存:/etc/rc.d/init.d/iptables save 3:重启服务:/etc/init.d/iptables ...

2017-12-29 17:44:38 228 0

原创 redis配置文件说明

# Redis 配置文件# 当配置中需要配置内存大小时,可以使用 1k, 5GB, 4M 等类似的格式,其转换方式如下(不区分大小写) # # 1k => 1000 bytes # 1kb => 1024 bytes # 1m => 1000000 bytes # 1mb =&g...

2017-12-29 16:18:48 199 0

原创 大数据面试题

1.你用过哪些机器学习/数据挖掘工具或框架? 2.你在项目中主要用过哪些机器学习/数据挖掘的算法? 3.给你公司内部群组的聊天记录,怎样区分出主管和员工? 4.海量数据分布在100台电脑中,如何高效统计出这批数据的TOP10? 5.100w个数中找出最大的100个数。 6.海量日志数据,...

2017-12-18 09:20:17 566 0

原创 pv统计

对日志文件进行页面的访问统计,获取每天点击量比较高的数据,来显示

2017-12-02 15:32:45 790 0

原创 tomcat记录访问日志

一般的web server有两部分日志: 一是运行的日志,它主要肌瘤运行的一些信息,尤其是一些异常错误日志信息 二是访问日志信息,他是记录的访问的时间,ip,url,sessionId等信息。 下面来介绍使用tomcat记录访问日志的使用,这个是在tomcat/conf/server.xml...

2017-11-30 15:42:17 17824 1

原创 Hello Spary

spray是什么:spary是使用scala编写的高效的rest框架,使用起来很简单,上手比较快 下面开始入正题: 引入依赖:(我使用的maven,应为sbt一直用不顺,依赖一直下不下来) <properties> <project.build.sourceEnco...

2017-11-13 11:24:16 348 0

原创 SPARK提交job的几种模式

spark常见的提交方式,有local的,有yarn-client,yarn-cluster等,下面来具体的介绍怎么写提交的脚本

2017-10-31 11:52:43 1951 0

原创 spark性能调优都有哪些方法

1、常规性能调优:分配资源、并行度。。。等 2、JVM调优(Java虚拟机):JVM相关的参数,通常情况下,如果你的硬件配置、基础的JVM的配置,都ok的话,JVM通常不会造成太严重的性能问题;反而更多的是,在troubleshooting中,JVM占了很重要的地位;JVM造成线上的spark作...

2017-10-30 15:24:15 885 0

原创 flume通过公网ip采集到hdfs上

需求描述: 公司的服务器在不同的地市都有分布,需要把不同地方的服务器的日志文件都收集到公司的内网hadoop集群中,来进行分析,(公司的hadoop集群和其他地方的集群不在同一内网中,需要借助公网来进行传输) 简单的模型图如下 失败案例: 直接把公网IP放在了hadoop集群的nn(nam...

2017-10-09 13:36:52 1216 1

原创 centos 6.7 yum install mysql

[root@master ~]# yum install -y mysql-server mysql mysql-deve3:启动mysql[root@master ~]# service mysqld start4:为mysql的root账号设置密码[root@master ~]#

2017-08-21 10:08:18 1023 0

原创 java中模拟一个阻塞队列(多线程)

模拟一个阻塞队列,当这个队列中满了的话,再往里添加元素则会阻塞在那里,直到有元素取出的时候才能往里加,取元素的时候,当队列是空的时候则会阻塞在那里,一直到有元素添加为止import java.util.LinkedList; import java.util.concurrent.atomic.A...

2017-07-12 23:23:25 851 0

原创 单例设计模式

听到单例设计模式大家可能会想到最多的是懒汉式和饿汉式吧,这里这两种方式我都不介绍了,可以参考我的这篇文章饿汉式 我要介绍的是在分布式中常用的,inner in class的这种形式(内部类的形式)public class InnerSingleton { private static cl...

2017-07-12 23:12:35 285 0

原创 day01运算

1:课程安排 9:00 20分钟打字 9:20 开始讲课 回顾昨天的内容 今天的内容 开始今天内容讲解 12:00 2:00 6:00 7:00晚自习 7:30 我会将今天要记得的内容...

2017-07-10 17:41:24 229 0

原创 hibernate-1

hibernate是一个持久层框架,跟Mybatis和ibatis是属于一个类型的框架,都是跟数据库进行表关系映射,使用java代码来直接操作表的,下面来介绍hibernate的简单使用,这里没有雨spring框架进行集成,与spring的集成会稍后发。 1:首先获取hibernate框架的ja...

2017-06-14 12:19:24 329 0

提示
确定要删除当前文章?
取消 删除