大数据实训

实训报告

自我介绍

我是来自甘肃的xxx,大家所看到的我的内在就像我的外表一样,敦厚和实在是我对自己的概括。我不浮,不躁。我内心充实,物质享乐和精神刺激郁不是我的嗜好。我待人诚实,真诚和厚道使我总能赢得朋友的信赖。我专业扎实,看书是我的享受,钻研电脑让我感觉其乐无穷。我做事猪实,再小的事情我也要一丝不苟地完成。重要的是,我有一种扎蓄钻研的精神,一种不弄明白绝不罢休的劲头。

对大数据的认识

 1.大数据的特点
具体来说,大数据具有4个基本特征:

一是数据体量巨大。百度资料表明,其新首页导航每天需要提供的数据超过1.5PB(1PB=1024TB),这些数据如果打印出来将超过5千亿张A4纸。有资料证实,到目前为止,人类生产的所有印刷材料的数据量仅为200PB。
二是数据类型多样。现在的数据类型不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数。
三是处理速度快。数据处理遵循“1秒定律”,可从各种类型的数据中快速获得高价值的信息。
四是价值密度低。以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。
###2.大数据解决什么问题
大数据解决对海量数据的存储、查询、分析计算等操作,主要应用在利用庞大的数据归类分析用户的偏好,利用用户的历史信息得出相应的统计账单等,将同行业的大公司的数据进行计算分析,可以挖掘出一些隐含价值。
###3.学习大数据的基础
1)java SE,EE(SSM)
因为90%的大数据框架都是java写的
2)SQL
特别是sql语句中的查询语句,因为对数据库的操作最多的是查询
使用Hadoop作为大数据的分布式存储、计算和分析 sql的操作会重要
3)Linux
大数据的框架安装在Linux操作系统上
###4.大数据框架安装功能来划分
海量数据存储:
HDFS、Hive(本质存储数据还是hdfs)、HBASE、ES
海量数据分析:
MapReduce、Spark、SQL

大数据场景运用

一、 银行大数据应用场景
银行的大数据应用场景集中在数据库营销、用户经营、数据风控、产品设计和决策支持等。
银行的数据按类型可以分为交易数据、客户数据、信用数据、资产数据等 4 大类。如图 2 所示,银行大数据应用可以分为 4 大方面:客户画像、精准营销、风险管控、运营优化。

图 银行大数据应用的 4 大方面
大数据在银行方面的应用 图:大数据在银行方面的应用

方面项目
客户画像1.个人客户画像2. 企业客户画像
精准营销1.交叉营销2.个性化推荐3.客户生命周期管理
风险管控1.中小企业贷款风险评估2.实时欺诈交易分析3.反洗钱交易分析
运营优化1.市场和渠道分析2.产品优化3.舆情分析

1)客户画像
客户画像应用主要分为个人客户画像和企业客户画像。个人客户画像包括人口统计学特征、消费能力、兴趣、风险偏好等数据;企业客户画像包括企业的生产、流通、运营、财务、销售和客户数据,以及相关产业链的上下游等数据。所以银行不仅仅要考虑银行自身业务所采集到的数据,更应整合外部更多的数据,以扩展对客户的了解。

① 客户在社交媒体上的行为数据

② 客户在电商网站的交易数据

③ 企业客户的产业链的上下游

④ 其他有利于扩展银行对客户兴趣爱好的数据

2)精准营销
在客户画像的基础上,银行可以有效地开展精准营销

① 实时营销

② 交叉营销

③ 个性化推荐

④ 客户

现代化的商业银行正在从经营产品转向经营客户,因此目标客户的寻找,已经成为银行数据商业应用的主要方向。通过数据挖掘和分析,发现高端财富管理和理财客户成为吸收存款和理财产品。

① 利用数据库营销,挖掘高端财

② 利用刷卡记录来寻找财富管理人群

财富管理人群,
③ 利用外部数据找到白金卡用户

3)风险管控
利用大数据技术可以进行对中小企业贷款风险的评估和对欺诈交易的识别,从而帮助银行降低风险。

① 中小企业评估

② 欺诈交易识别

4)运营优化
大数据分析方法可以改善经营决策,为管理层提供可靠的数据支撑,使经营决策更加高效、敏捷,精确性更高。

① 市场和渠道分析优化

② 产品和服务优化

③ 舆情分析

实习内容

大数据行业发展趋势与人才需求

1、大数据技术趋势及应用
2、什么是大数据
3、大数据的特点
4、大数据的应用领域
5、华为大数据解决方案
6、大数据人才需求与职业岗位分析
7、如何学习大数据
8、华为大数据认证体系

大数据基础环境和工具认知

链接:JDK8的安装与配置
1、Java编程环境部署
2、IDEA代码编辑工具的使用
3、Maven项目管理工具介绍
4、Java模拟定时生成日志到文件
5、通过打包案例了解域名映射

数据可视化介绍与展示

链接: SpringBoot+Thymeleaf+ECharts实现大数据可视化
1、Web前端知识介绍
2、ECharts介绍及使用
3、实践完成数据可视化小案例

Linux操作系统的初步使用体验

链接:
Window7系统上Centos7的安装
Centos7虚拟机NAT网络的配置
下载XShell教程与简单使用
1、Linux操作系统介绍
2、常用命令介绍
3、Linux环境体验
4、VI编辑器的使用
5、Shell脚本的使用

大数据入门

1、Hadoop生态圈及三大组件
2、HDFS架构与MapReduce原理
3、大数据学习环境的搭建
4、跑通MapReduce大数据统计案例

计算框架介绍与案例演示

1、Spark框架介绍
2、Spark生态圈及组件
3、Spark提交作业流程
4、搭建Spark集群环境
5、跑通Spark大数据统计案例

总结

安装jdk
1、不要使用中文路径,会提示向导错误。
2、配置好环境变量后,需要回去看一下,是否多了双引号 (win10)
3、路径jdk1.8xxxx与jre1.8xxxx是并列关系
4、如果第一次javac不行,应该是你的jdk1.8xxx与jre1.8xxx 的路径不对。下次改好后,需要关掉之前的运行窗口,再启动 ,再运行javac查看结果。

配置环境变量
1、JAVA_HOME就代表JDK的Home路径!
2、在Win上使用JAVA_HOME路径的方式是在它的前后加上%:%JAVA_HOME%
3、jar包文件,即别人写好的java程序进行打包后的件。假如你写好了一个java程序,你要给别人使用,你就可以打包成jar包,然后别人拿到你的jar包,就可以直接使用了。前提是:要有java的运行环境!
4、Path路径也是一个变量!我们最终需要配置的路径其实是:
D:\Program Files\Java\jdk1.8.0_261\bin
D:\Program Files\Java\jdk1.8.0_261\jre
这两个路径!!!
5、java、javac其实是可以在任意路径都可以执行的,系统会自动去环境变量配置的路径里面去查找你执行的命令文件!!

安装maven
Maven,简而言之,就是一个项目管理工具,也是一个包管理工具。项目管理工具体现在,你在构建Java项目的时候,可以选择构建一个 由Maven管理的项目,那么你这个项目的jar包就全部关联Maven了,那 么Jar包就全部交由Maven管理了,包管理的功能也体现于此。
Maven下载的jar包,放在你的maven的安装路径的conf/settings.xml 里面配置的LocalRepository的路径。Maven管理的这些jar包是在conf/settings.xml里面配置的mirror路径的!

如果想要用一个域名来代替127.0.0.1,需要修改一下映射表(C:\Windows\System32\drivers\etc\hosts),把映射关系加上去,就可以通过这个域名来代替127.0.0.1这个ip了

Maven依赖引入
1、搜索Maven repository,进入Maven远端仓库依赖下载路径,在里面的搜索框中搜索:hadoop-client,点击进入,选择2.7.5版本。
2、粘贴到pom.xml的<Dependencies〉标签里面!
3、右击pom.xml文件,选择maven,选择reimport(2018版本IDEA)或者reload project(2020版本IDEA),等待下载依赖
4、等待下面的进度条不再闪动!

构建一个Springboot工程,其中有两个注意的地方:选择Spring web和thymelef,然后点击构建!务必确保Maven已经配置好!!
构建中可能会遇到的问题
1、提示报各种错误
解决:重新建工程,多建几遍。
2、依赖报红
解决方法1:右击pom.xml文件,选择maven,选择reimport(2018版本IDEA)或者reload project(2020版本IDEA),等待下载依赖
如果不行,继续!
解决方法2:去把你的本地仓库的地址(D:\mvn_repos)里面的内容全删了(谨慎使用),然后右击pom.xml文件,选择maven,选择reimport(2018版本IDEA)或者reload project(2020版本IDEA),等待下载依赖。
3、项目的结构跟老师的不同
解决:确保选中的是Spring Initializr

收获和感想

通过这次实习我学习到了,什么是大数据,大数据的特点、发展趋势、就业等问题。学会了JAVA编程环境部署。IDEA代码编辑工具的使用,对Maven项目管理工具基本的认识,Linux环境体验。学习了hadoop生态圈及三大组件:HDFS、YARN、MapReduce。当也发现了自己的许多不足,我会好好学习努力改进自己。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值