大数据入门与高阶开发(Big Data)
文章平均质量分 94
大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
白鹿第一帅
郭靖,笔名“白鹿第一帅”。Java开发工程师,算法、安全领域爱好者,开源布道师,社区运营,万粉作者。亚马逊云科技User Group Leader,CSDN成都城市开发者社区、数据库技术专区主理人。工学、管理学双学士学位,拥有多项国家工信部高级专项技术证书及计算机软件著作权。技术领域,拥有5年JavaEE企业级开发运营经验。CSDN社区“博客专家”、CSDN内容合伙人,阿里云社区“专家博主”、“星级博主”,腾讯云开发者社区“2022年度优秀作者奖”,华为云社区“华为云专家”,开源中国OSCHINA首位“OSC优秀原创作者”、“OSC最受喜爱博主”,华为开发者联盟“文档深度体验官”。
展开
-
大数据入门系列 1:全网最全,Windows 安装 VMware Workstation 虚拟机完整步骤及需要注意的问题
学习大数据,就必须要有一台 Unix 或者 Linux 系统的电脑,苹果电脑首选就是最佳的选择,如果条件不支持,在 Windows 电脑上安装虚拟机 VMware Workstation,再在 VMware 里面安装 Linux 系统也是一种不错的选择,下面白鹿为大家奉上在 Windows 上安装 VMware 虚拟机完整步骤及在 VMware 虚拟机上安装 Ubuntu18.04.3 优麒麟版完整步骤。原创 2019-12-10 19:17:50 · 9555 阅读 · 4 评论 -
Windows 系统中常见的 Shell 命令总结(不时补充)
Windows 命令提示符(cmd.exe)是 Windows NT 下的一个用于运行 Windows 控制面板程序或某些 DOS 程序的shell 程序,或在 Windows CE 下只用于运行控制面板程序的外壳程序。在本文中我列出了一些常见的 Shell 命令,以下均是我使用最频繁的。当然随着开发,我依旧会不断地丰富、补充我所用到的一些命令,希望对你有所脾益。原创 2019-09-08 11:29:25 · 1795 阅读 · 0 评论 -
大数据入门系列 2:全网最全,VMware 虚拟机上安装 Ubuntu 完整步骤及需要注意的问题
作为全球最流行且最有影响力的 Linux 开源系统之一,Ubuntu 自发布以来在应用体验方面:有较大幅度的提升,即使对比 Windows、MacOS 等操作系统,最新版本的 Ubuntu 也不逊色。浏览器体验虽然可以获得初步的 Ubuntu 体验,但总有意犹未尽的感觉,因为能够体验到的应用程序有限,且功能不全。要想更加深人地体验 Ubuntu,则需要运行虚拟机,在虚拟机中获得更完整的体验。原创 2019-09-17 09:50:56 · 4436 阅读 · 10 评论 -
大数据入门系列 3:全网最全,Ubuntu 安装 VMware Tools 完整步骤及需要注意的问题
尽管客户机操作系统在未安装 VMware Tools 的情况下仍可运行,但许多 VMware 功能只有在安装 VMware Tools 后才可用。安装 VMware Tools 后,工具套件中的实用程序可增强虚拟机客户机操作系统的性能,改善虚拟机的管理。我们 Win10 系统安装的是 ubuntu-18.04.3,需要安装 VMware Tools,故本文用于记录 Ubuntu 安装 VMware Tools 完整步骤及需要注意的问题。原创 2019-09-22 22:00:47 · 6688 阅读 · 13 评论 -
AnimeGANv2 照片动漫化:如何基于 PyTorch 和神经网络给 GirlFriend 制作漫画风头像?
将现实世界场景的照片转换为动漫风格图像的方法,这是计算机视觉和艺术风格转换中一项有意义且具有挑战性的任务,而本文中我们介绍的 AnimeGAN 就是 GitHub 上一款爆火的二次元漫画风格迁移工具,可以实现快速的动画风格迁移。该工具是基于神经风格迁移和生成对抗网络 (GAN) 技术打造的,相比于传统的神经网络模型,GAN 是一种全新的非监督式的架构。最近 AnimeGAN 发布了其二代版本,据称更新后 AnimeGANv2 支持了风景照片和风景视频的三种动漫化风格(分别是宫崎骏、新海诚和金敏)。原创 2022-09-09 02:24:25 · 3954 阅读 · 6 评论 -
Linux 答疑:Linux 中 apt 与 apt-get 命令有何区别,我们该选择 apt 还是 apt-get?
随着 apt install package 命令的使用频率和普遍性逐步超过 apt-get install package,越来越多的其它 Linux 发行版也开始遵循 Ubuntu 的脚步,开始鼓励用户使用 apt 而不是 apt-get。那么,apt-get 与 apt 命令之间到底有什么区别呢?如果它们有类似的命令结构,为什么还需要新的 apt 命令呢?是否 apt 真的比 apt-get 更好?普通用户应该使用新的 apt 命令还是坚持旧有习惯继续使用 apt-get 呢?原创 2019-10-28 22:14:42 · 1481 阅读 · 7 评论 -
Ubuntu 答疑:Ubuntu 添加和删除用户具体步骤及进程被占用的解决方式
我们使用 Ubuntu 添加和删除用户是我们学习 Ubuntu 最初入门的实验,本篇文章以具体步骤进行演示,同时附上最可能报的错误——进程被占用以及对应的解决方式,本次测试以 ubuntu-18.04.3 为例。原创 2019-10-29 09:35:14 · 2702 阅读 · 5 评论 -
ssh 配置原理:在 Linux 中 ssh 配置无密码登陆完整步骤以及易错点分析
对于 Hadoop 的伪分布式和全分布式而言,Hadoop 的名称节点(NameNode)需要启动集群中所有机器的 Hadoop 的守护进程,这个过程可以通过配置 ssh 登陆来实现。Hadoop 并没有提供 ssh 输入密码登陆的形式,因此为了能够顺利登陆每台机器,需要将所有机器配置为名称节点可以无密码登陆的形式。原创 2019-11-16 15:04:27 · 2765 阅读 · 3 评论 -
Apache Hadoop 启动报错:masternode:ssh: connect to host master port 22: Connection timed out 解决方式汇总
最近在 Win10 系统上配置了ubuntu-18.04.3,在配置集群的 ssh 无密钥登录时,经常能碰到 ssh: connect to host master port 22: Connection timed out 的问题,经过分析之后我发现一般有两种原因会导致这种情况,接下来我们一一展开探讨。原创 2019-11-25 23:57:39 · 6059 阅读 · 1 评论 -
大数据入门系列 4:全网最全,伪分布式 Hadoop 在 Ubuntu 上的安装流程完整步骤及易错点分析
本文为大数据入门系列 4:全网最全,伪分布式 Hadoop 在 Ubuntu 上的安装流程完整步骤及易错点分析,以 ubuntu-18.04.3、hadoop-3.2.1-tar.gz 为例。本系列的其他文章可以移步本人大数据专栏进行查看。对于本篇文章,我个人是很有自信的,一篇文章掌握一门课程核心技术点。原创 2019-10-30 18:36:07 · 2478 阅读 · 3 评论 -
大数据入门系列 5:全网最全,Hadoop 实验——熟悉常用的 HDFS 目录操作和文件操作
本篇文章是大数据基础系列的第五篇,完全针对 HDFS 文件系统,目的即理解 HDFS 在 Hadoop 体系结构中的角色,熟练使用 HDFS 操作常用的 Shell 命令,熟悉 HDFS 操作常用的 Java API。对大数据系列感兴趣的同学可以移步本人大数据专栏查看更多内容。原创 2019-12-22 13:52:37 · 8933 阅读 · 11 评论 -
Apache Hadoop 答疑:解决 Apache Hadoop 启动时 DataNode 启动异常的问题
本文用于解决 Apache Hadoop 启动时 DataNode 启动异常的问题,但是请注意这会删除 HDFS 中原有的所有数据,如果原有的数据很重要请不要这样做。原创 2019-12-11 11:36:03 · 1374 阅读 · 3 评论 -
数据挖掘环境:虚拟机 Ubuntu 上安装 Python 和 Jupyter Notebook(IPython Notebook)完整步骤
Jupyter Notebook(此前被称为 IPython Notebook)是一个交互式笔记本,支持运行 40 多种编程语言,Jupyter Notebook 的本质是一个 Web 应用程序,便于创建和共享文学化程序文档,支持实时代码,数学方程,可视化和 markdown,用途包括:数据清理和转换,数值模拟,统计建模,机器学习等等。在本文中我们将学习如何在 VMware 虚拟机 Ubuntu 上安装 Python 和 Jupyter Notebook,并对过程中可能出现的一些问题进行汇总归纳。原创 2019-09-23 14:36:01 · 6678 阅读 · 9 评论