小牛学堂

大数据云计算,算法

spark与spring集成做web接口

需要实现的功能:写访问spark的接口,也就是从web上输入网址就能把我们需要的信息通过提交一个job然后返回给我们json数据。 成果展示: 通过url请求,然后的到一个wordcount的json结果(借助的是谷歌浏览器postman插件显示的,直接在浏览器上输入网址是一样的效果) 使用...

2017-11-03 14:40:47

阅读数 6992

评论数 4

大数据与深度学习区别?

简单来说: 1)深度学习(Deep Learning)只是机器学习(Machine Learning)的一种类别,一个子领域。机器学习 > 深度学习 2)大数据(Big Data)不是具体的方法,甚至不算具体的研究学科,而只是对某一类问题,或需处理的数据的描述。 具体来说: ...

2019-02-21 10:08:51

阅读数 299

评论数 0

大数据具体行业的应用?

从推送起家,依托推送产品的海量终端覆盖,同时发展了大数据和移动营销业务,目前已成为基于大数据的移动互联网综合服务提供商。 案例 智能推送:通过精准的大数据分析,做到在合适的时间,合适的地点,把合适的消息,推送给合适的人。让推送变的更精准,让运营变得更精细化。 智慧旅游:与各省市旅游局合作,通过个...

2019-02-20 10:41:31

阅读数 38

评论数 0

个人如何获取大数据

有三个来源 1)政府职能部门开放的数据,如国家统计局,可以访问官网获取; 2)互联网平台提供商,如twitter、facebook、百度、新浪微博、淘宝,通过开放接口或者专业工具获取; 3)数据资源商业机构,如数据堂,有免费和收费数据; ...

2019-02-19 13:09:18

阅读数 86

评论数 0

大数据方面核心技术有哪些?

总的来说大数据有5个部分。数据采集,数据存储,数据清洗,数据挖掘,数据可视化。数据采集有硬件采集,如OBD,有软件采集,如滴滴,淘宝。数据存储就包括NOSQL,hadoop等等。数据清洗包括语议分析,流媒体格式化等等。数据挖掘包括关联分析,相似度分析,距离分析,聚类分析等等。数据可视化就是WEB的...

2019-02-18 14:14:20

阅读数 71

评论数 0

Scala 在大数据处理方面有何优势?

我想大部分应用开发程序员,最关键是看有什么类库合适的方便特定领域的应用开发。就像ruby有rails做web开发,你可以去论证ruby优缺点,但实际上应用开发效率提升很大程度上依靠类库。 现在Spark是大数据领域的杀手级应用框架,BAT,我们现在几个领域巨头的客户(有保密协议不方便透露)都全面使...

2019-01-30 17:02:26

阅读数 50

评论数 0

大数据公司 Splunk 和 Cloudera 的核心竞争力在哪里?

Splunk面向的是细分市场,分析Machine Log,并在上面集成了完整的专用模块。所有用例都是相对专门的领域,因此可以对这些进行专门优化。它的核心竞争力应该是领域知识和抽象,以及相关的优化和功能,而不是大数据。如果我没搞错的话,Splunk刚出的时候是单机的。 Cloudera以及类似的两家...

2019-01-29 17:32:38

阅读数 154

评论数 0

国内有哪些大数据公司?

国内大数据公司名单汇总 大数据近几年来可谓蓬勃发展,它不仅是企业趋势,也是一个改变了人类生活的技术创新。大数据对行业用户的重要性也日益突出。掌握数据资产,进行智能化决策,已成为企业脱颖而出的关键。因此,越来越多的企业开始重视大数据战略布局,并重新定义自己的核心竞争力。本文整理了在中国境内活跃的...

2019-01-28 15:55:49

阅读数 587

评论数 0

案例分析-爬虫(51job网站的信息)

爬虫介绍 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 网络爬虫主要应用有两个方面,一方面用于检索,例如百度,谷歌等网站;另一方面用于爬...

2019-01-13 16:14:40

阅读数 104

评论数 0

案例分析-电影评分分析

电影评分分析数据原始数据展示json格式说明数据字段含义需求1.每个用户评分最高的10部电影评分信息(用户最喜爱的十部电影)2.每个用户的uid和评分的平均值。3.最大方(评分平均值高)的n个用户的uid和评分平均值。4.最热门的10部电影id和评价次数。5.评价最高的10部电影id和评分均值需求...

2019-01-09 14:42:54

阅读数 265

评论数 0

案例分析-电影评分分析

电影评分分析数据原始数据展示json格式说明数据字段含义需求1.每个用户评分最高的10部电影评分信息(用户最喜爱的十部电影)2.每个用户的uid和评分的平均值。3.最大方(评分平均值高)的n个用户的uid和评分平均值。4.最热门的10部电影id和评价次数。5.评价最高的10部电影id和评分均值需求...

2019-01-08 21:32:24

阅读数 292

评论数 0

mybatis从0到1

mybatis从零到一学习实战依赖的引入配置数据库连接功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公...

2019-01-03 15:37:46

阅读数 79

评论数 0

java基础增强案例-电影评分

原始数据: 字段说明: Movie 电影的id Rate 电影评分 Timestamp 评论时间 Uid 用户id 需求: 每个用户评分最高的10部电影评分信息(用户最喜爱的十部电影) 每个用户的uid和评分的平均值 最大方(评分平均值高)的n个...

2018-12-06 16:33:51

阅读数 104

评论数 0

日志分析

对平台操作行为记录(现版本还没实施,等上线有需求,有数据了做) 这个主要通过日志进行记录,这个不是对用户进行展示的,是给我们内部去看的,用来改进我们的产品的。 主要进行要记录的日志信息有(这个根据需求来加) ip sessionid 日志级别 userid 点击时间 请求的url ...

2018-04-04 11:52:38

阅读数 129

评论数 0

windows开启WiFi热点

第一步,启用cmd 第二步,在命令行中输入(用来创建一个虚拟网卡) netsh wlan set hostednetwork ssid=您想要的无线网络的名称 key=您想要设置的密码 第三步,在命令行中输入(用来启动wifi) netsh wlan start hostednetwork...

2018-03-29 13:36:48

阅读数 1503

评论数 0

星形模型和雪花模型

一、概述 在多维分析的商业智能解决方案中,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑型数据的模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。 当所有维表都直接连接到" 事实表"上时,整个图解就像星星一样,故将该模型称为星型模...

2018-01-29 14:54:58

阅读数 308

评论数 0

自己写UDF(Hive)

目标:使用java自己写一个UDF函数 1、先开发一个java类,继承UDF,并重载evaluate方法 package com.udf; import org.apache.hadoop.hive.ql.exec.UDF; import org.apache.hadoop.io.Text...

2018-01-28 22:18:07

阅读数 273

评论数 0

hive累积报表hql

问题:下面是一个员工的业绩数据,数据格式是username,date,money,数据如下 A,2015-01,5 A,2015-01,15 B,2015-01,5 A,2015-01,8 B,2015-01,25 A,2015-01,5 A,2015-02,4 A,2015-02,6 B,...

2018-01-28 22:10:24

阅读数 609

评论数 0

查看linux负载的情况

查看一个服务器的负载情况一般是从内存,cpu的使用量来看的,还有就是磁盘io和网络io,下面会分别对其进行监控(环境sentos6.7) 内存负载情况: free这个命令可以查看内存的使用情况可剩余情况:具体使用如图 cpu的负载情况: 使用top来动态的显示,直接在命令行中输入 to...

2018-01-26 14:34:43

阅读数 3854

评论数 0

linux的awk和sed等命令比较

对于文本的操作分为两种操作,一种是按行操作,一种是按列操作。 简单的命令有grep(行操作)和cut(列操作)。 复杂点的有sed(行操作)和awk(列操作)。 样例文本 hello tom hi marry how are you 什么是行操作:简单的例子就是,获取上面文本中带有hel...

2018-01-22 15:41:45

阅读数 287

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭