自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 大数据实验3.4

Map任务将执行查询并将ResultSet中的数据反序列化到生成类的实例,这些数据要么直接保存在SequenceFile文件中,要么在写到HDFS之前被转换成分割的文本。Sqoop的代码生成器使用这些信息来创建对应表的类,用于保存从表中抽取的记录。Sqoop是一款开源的工具,主要用于在Hadoop生态系统(Hadoop、Hive等)与传统的数据库(MySQL、Oracle等)间进行数据的传递,可以将一个关系型数据库中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中。

2022-12-15 18:46:52 280 1

原创 大数据实验3.3

1.在需求4中,对日期的处理,我们使用了Hive中自带的,截取字符串的函数substr。因此,Hive并不适合那些需要低延迟的应用,它最适合应用在基于大量不可变数据的批处理作业,例如,网络日志分析。在删除表的时候,内部表的元数据和数据会被一起删除, 而外部表只删除元数据,不删除数据。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。具体数值,会根据采集来的数据的变化而变化。

2022-12-15 17:53:56 272

原创 大数据实验3.2

因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。通过map任务,取得文件里的数据,并通过fastjson类,对json文件进行解析,获取json中的字段。hdfs上创建目录,名为/myedu2,并将/data/edu2/club.jd.com下的数据,上传到hdfs中。

2022-12-15 17:10:24 255

原创 大数据实验3.1

也就是对当前爬虫,进行设置,包括编码、抓取间隔、超时时间、重试次数等,也包括一些模拟的参数,例如User Agent、cookie,以及代理的设置。WebMagic的设计参考了业界最优秀的爬虫Scrapy,而实现则应用了HttpClient、Jsoup等Java世界最成熟的工具,目标就是做一个Java语言Web爬虫的教科书般的实现。②对已抓取的URL进行去重。Spider则将这几个组件组织起来,让它们可以互相交互,流程化的执行,可以认为Spider是一个大的容器,它也是WebMagic逻辑的核心。

2022-12-15 16:42:09 314

原创 spring项目静态文件路径与idea代码提示冲突问题

spring项目静态文件路径与idea代码提示冲突问题本人在使用idea编辑springboot项目时,项目目录如下-而在模板页面中,例如index.html,如果要引用css目录下的xxx.css,按理应该是/static/css/xxx.css.然后这样使用虽然idea不会漂黄报warning,但是在spring项目的运行过程中由于框架特性会直接把static当做根目录找静态文件。所以用如上方法会找不到css。若要解决这个问题则应该把上文中的/static/css/xxx.css改为/css/x

2021-04-02 18:08:17 155

原创 idea 每次新建项目都要重新设置maven

idea 每次新建项目都要重新设置maven不要使用setting往下找,使用setting for new project

2020-12-14 21:05:05 944

原创 maven用法

maven 用法maven安装下载并解压maven新建repository文件夹改写conf/setting.xml将localrepository改写为本地改写mirrors为阿里云声明java版本检查安装是否成功mvn -versionmaven命令clean:删除targetcompile:编译并产生targettest:运行测试单元(在此之前会调用compile编译)package:打包project(在此之前会调用compile编译和test)insta

2020-12-14 16:01:32 83

原创 eclipse删除所有注释以及空行

ctrl+F,输入/*{1,2}[\s\S]?*/|//.+|^\s\n勾选正则表达式Regular expressionreplaceAll

2020-12-12 19:12:34 152

原创 Java 命令行运行提示找不到主类

Java 命令行运行提示找不到主类若未配置classpath,默认会在当前目录下查找class文件使用java命令运行.class文件时不需要后缀,如javac HelloWorld.javajava HelloWorld3. 若java文件含有包声明语句,则需删除包名并重新编译或新建该包名同名文件夹并将class文件放在该文件夹下然后以如下方式运行java packageName.HelloWorld...

2020-12-10 17:23:23 724

原创 计算机组成--PC和IP的区别

PC 是计算机科学中使用的一个术语。IP 是 x86 兼容 CPU 中的一个寄存器。简单来说,在 x86 兼容 CPU 上,CS 段寄存器和 IP 寄存器两个寄存器就是实现计算机科学中的 PC 这个概念的具体设施。

2020-05-23 14:51:36 4018

原创 计算机网络--子网划分的意义

学习到子网划分这一块产生了这样一个疑问:教程上说子网划分可以节省IP地址,但实际上对于一个C类地址,如果不划分子网。可以拥有254台主机(减去本机和广播),也就是254个IP。但是如果划分4个子网,每个子网都要减去本机和广播也就是64-2=62 个IP,那么总共原来这个C类地址划分子网后能拥有的合法地址只有62*4=248个比原来还少。与“节省IP”产生矛盾。实际上,这个“节省”并不是增加了IP地址。而是通过划分子网增加路由器,从而使每个子网中的ip可以得到充分的利用;举个例子,某个小区有100户人

2020-05-16 16:53:03 2309 2

原创 shell编译运行Java关于package或ClassNotFound的问题

使用javac命令编译时,如果没有包结构,直接javac 文件名,然后java 文件名就ok。但是如果有包结构,需要用到javac -d 路径 文件名如javac -d . hello.java再用java加上完整路径如java package1.hello...

2020-04-26 15:14:33 237

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除