自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(37)
  • 资源 (23)
  • 收藏
  • 关注

原创 搭建HBase2.x完全分布式集群(CentOS 9 + Hadoop3.x)

Apache HBase™是一个分布式、可扩展、大数据存储的Hadoop数据库。支持对大数据进行随机、实时的读/写访问请求。本文详细介绍了HBase完全分布式集群的环境搭建过程,文末附有所需的相应资源的网盘链接。

2024-04-19 12:14:51 1078 1

原创 搭建Zookeeper完全分布式集群(CentOS 9 )

ZooKeeper是一个开源的分布式协调服务,它为分布式应用提供了高效且可靠的分布式协调服务,并且是分布式应用保证数据一致性的解决方案。本文主要介绍ZooKeeper的完全分布式集群搭建、集群服务管理脚本的编写、以及常见问题的解决办法。

2024-04-17 10:06:48 1312

原创 HiveQL练习(hive3.x)

本文详细介绍了Hive关于管理表、外部表、分区表和桶表的创建和基本操作,结合emp和dept数据介绍了Hive的各种查询语句的写法。

2024-04-14 00:48:12 1057

原创 搭建Hive 3.x环境(CentOS 9 + Hadoop3.x)

本文介绍了Hive的详细安装过程,包括本地模式和远程模式两种配置方式,并采用cli和beeline两种方式进行了测试,文末提供了对应的网盘资源。

2024-04-14 00:39:03 1392

原创 搭建Hadoop3.x完全分布式集群(CentOS 9)

本文详细介绍了Hadoop3完全分布式集群搭建的完整过程,主要包括:虚拟机安装、虚拟机克隆、网络环境配置、jdk安装、Hadoop安装、Hadoop配置参数、Hadoop服务的启动与关闭、常见问题及解决方法、示例演示等内容,并在文末提供了相关的百度网盘资源供下载。

2024-03-13 00:49:25 3139

原创 Apriori算法python实现(含mlxend实现+手动实现)

利用关联规则对购物篮数据进行分析,采用Apriori算法。除了使用mlxend进行实现,也采用完全手动代码的方式完成数据的预处理和Apriori算法python实现。

2023-10-31 23:39:26 704

原创 Linux常用命令大全

linux的常用命令及解释,主要包括文件目录管理、软件包管理、用户管理、进程管理、网络通信、磁盘管理、系统监控及管理等

2023-10-01 15:19:55 780

原创 git基本使用

Git 是一个免费的、开源的分布式版本控制系统,可以快速高效地处理从小型到大型的各种项目。本文主要介绍git命令的安装与使用、IDEA中集成git和gitee。

2023-09-14 16:36:18 531

原创 Pandas数据分析案例(盛华化工锅炉排放数据可视化分析)

Pandas是一个基于BSD开源协议的开源库,提供了用于Python编程语言的高性能、易于使用的数据结构和数据分析工具。pandas基于numpy构建,该库作为金融数据分析工具而开发出来,由AQR Capital Management(一家定量投资管理公司)公司于2008年4月开发出来,并于2009年底开源。在实际数据分析项目中,Pandas被大量使用,它可以完成数据处理和分析的五个典型步骤(加载,准备,操作,模型和分析)。本案例利用Pandas工具,完成对盛华化工锅炉排放数据的可视化分析。......

2022-08-10 00:24:48 1349 1

原创 Python装饰器(从入门到进阶)

装饰器是Python的一个高级话题,装饰器的构建对于工具构架者比对于应用程序员的意义会更加重要。目前,在流行的Python框架中变得越来越常见,对其基本的理解有助于认识它们的作用。我们将深入装饰器的内部工作机制,并学习自己编写新的装饰器的更多高级方法。...

2022-07-14 17:30:29 768

原创 Python虚拟环境(pipenv、venv、conda一网打尽)

随着大数据、人工智能的兴起,Python被带到了一个新的高度,但在使用Python过程中,很多人没搞清楚Python环境究竟是什么。当开发工程的时候,往往因为python环境的问题搞得一团糟。本文旨在说清楚什么是Python环境,什么是Python虚拟环境,并希望通过本文的学习掌握常用的Python环境管理工具的使用。

2022-05-08 00:52:45 3291 10

原创 RDD编程案例-共同粉丝问题

共同粉丝问题是一个经典的大数据分布式计算问题,本文基于RDD+PySpark+JupyterLab环境完成该案例。

2022-04-21 18:23:37 2374

原创 JupyterLab使用教程

Jupyter源于Ipython Notebook项目,是使用Python(也有R、Julia、Node等其他语言的内核)进行代码演示、数据分析、机器学习、可视化、教学的非常好的工具,对Python的愈加流行和在AI领域的领导地位有很大的推动作用。JupyterLab是最新的基于web的交互式开发环境,适用于notebook、code和data。其灵活的界面允许用户配置和设计数据科学、科学计算、计算新闻和机器学习领域的工作流。模块化设计可以轻松的实现更多扩展

2022-03-26 19:17:22 27238 7

原创 Kylin环境搭建(保姆级教程)

Apache Kylin是基于Hadoop大数据平台的一个开源联机分析处理(Online Analytical Processing,OLAP)引擎。它采用多维立方体**预计算**技术,将大数据的SQL查询速度从之前的分钟乃至小时级别提升到亚秒级别,这种百倍、千倍的速度提升,为超大规模数据集上的交互式大数据分析奠定了基础。

2022-03-12 23:52:52 4672

原创 Hive环境搭建(保姆级教程)

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。本文将详细介绍Hive的本地安装模式的具体过程。

2022-03-09 09:03:48 13372

原创 Spark环境搭建(保姆级教程)

Spark 是一个大规模数据处理的统一分析引擎本文主要介绍Spark的相关配置,以及各种模式的代码提交,包括Local,Standalone,YARN。文末有相应资源下载网盘链接。

2022-02-24 12:57:30 49397 7

原创 HBase环境搭建与基本使用(保姆级教程)

HBase是一个基于Hadoop的分布式列族数据库,该产品源于Google的《BigTable》论文,它弥补了HDFS不能实时和随机读写等缺陷,支持数十亿行和数据百万列的大表。本文对HBase做了简单的介绍,并详细介绍了HBase2.x的安装过程和简单使用,希望对您有所帮助。

2022-01-20 01:03:34 3970

原创 Hadoop环境搭建及常见问题解决(保姆级教程)

学习大数据的路上,肯定少不了Hadoop的陪伴。在学习Hadoop之初,一件"痛苦"的事情莫过于装环境,看着别人万事亨通,而自己跌跌撞撞,个中心酸,有几人懂...本教程为保姆式教程,力图帮您排忧解难。主要内容如下:【资源准备】 => 【环境准备】 => 【JDK的安装】 => 【Hadoop的安装】 => 【伪分布式的配置】 => 【启动与测试】 => 【常见错误及解决办法】

2021-12-13 17:03:53 14805 39

原创 虚拟机安装(保姆级教程)

虚拟机安装(保姆级教程)零、教程涉及的资源一、虚拟软件安装二、虚拟电脑创建三、Linux系统安装四、简单设置1. apt源更新2. vmware-tools安装五、常见问题及解决方案1.vmware-tools安装但不生效2. 初装ubuntu 18.04, 发现没有网络3. 总是弹提示信息:"system program problem detected"零、教程涉及的资源一、虚拟软件安装VMware WorkstationVBoxVMware PlayerHyper-V本教程以安装VM

2021-09-15 17:35:55 48647 36

原创 Python函数(从入门到进阶)

函数本质上就是一段具有指定功能、可以反复使用的代码段,它是对代码的一种抽象。在Python中,我们经常听到位置参数、关键字参数、包裹(packing)位置参数和包裹(packing)关键字参数等概念,但很多人其实搞不清楚这些概念的本质区别。本来只想介绍Python中关于函数参数的相关知识,但出于完整性考虑,本文将按下面的过程进行讲解:函数的概念 => 函数的定义及调用 => 函数的执行环境 => 函数的参数 => 函数的高级话题。...

2020-10-27 12:15:00 552 2

原创 强烈呼吁弃用Notepad++,优秀替代品献上

Notepad++作为一款开源文本编辑软件,无可厚非是一款优秀的软件,但是它的作者太政治化,多次在官网污 蔑 诋 毁 我们热爱的祖国,此行为,给技术界蒙羞,坚决弃用!推荐两款优秀的替代品,都是免费的:大家如果喜欢可以官网进行下载,为了方便,我将官网的安装包(目前是最新的)放在了百度云:https://pan.baidu.com/s/1jW66NiM4QcoUnC_lbs9GZQ 提取码:6s...

2020-05-07 09:47:43 130965 49

原创 基于Ambari搭建大数据分析平台

大数据集群管理方式分为手工方式(Apache hadoop)和工具方式(Ambari + hdp 和Cloudera Manger + CDH)。手工方式太过复杂,是一个艰辛的过程,在企业应用中,一般采用工具部署方式。Ambari和Cloudera Manager这两个系统,目的就是简化Hadoop生态集群的安装、配置,同时提高Hadoop运维效率,以及对Hadoop集群进行监控。

2024-03-13 22:37:53 1923

原创 关于Ubuntu18.04 root账户登录的问题

默认的Ubuntu 18.04系统在登陆界面上是不支持root用户直接登录的,需要通过如下配置才能使用root登录。此外,在使用ssh工具连接服务器时,会出现普通账户能登录但root账户不能登录的问题,需要将PermitRootLogin选项打开。

2023-02-27 23:07:04 1386 1

原创 sklearn复合评估器的构建(电信客户流失模型)

Sklearn (全称 Scikit-Learn) 是基于 Python 语言的机器学习工具。它建立在 NumPy, SciPy, Pandas 和 Matplotlib 之上, API 的设计非常好,所有对象的接口简单,很适合新手上路。

2022-05-04 23:39:14 833

原创 SparkSQL案例-图书信息分析

SparkSQL是Spark为处理结构化数据提供的高级组件,本文将使用SparkSQL完成图书信息统计,示例代码将分别以DSL和SQL两种风格进行讲解,并结合Matplotlib和Pandas对结果进行可视化呈现。文末提供数据和源代码的网盘资源

2022-04-14 13:20:07 2288

原创 ZooKeeper环境搭建(保姆级教程)

在分布式领域,一个不可或缺的组件,便是ZooKeeper。ZooKeeper是一个高可用的分布式数据管理和协调框架,并且能够很好的保证分布式环境中数据的一致性。ZooKeeper由Yahoo公司创建,是Google Chubby的开源实现。本教程的内容安排:ZooKeeper简介 => ZooKeeper安装 => 常见问题及解决办法

2021-12-16 22:37:45 4572

原创 正则表达式从理论到实战

作为字符串处理的利器,正则表达式(regular expression,简称regex,或RE), Unix 之父Ken Thompson对其的定义为:正则表达式是描述一组字符串特征的模式,用来匹配特定的字符串。本文按如下过程讲解:简单模式匹配 => 量词 => 边界 => 转义符 => 字符集 => 选择、分组和后向引用 => 贪婪、懒惰、占有 => 零宽断言 => 注释 => 选项在学习过程中会附加一些小示例,在文末提供相关资源的下载。

2021-12-01 21:59:25 643

原创 商务智能工具集

这里写自定义目录标题商务智能工具集基础环境数据预处理工具OLAP工具数据挖掘工具高级开发环境其他工具商务智能工具集考虑到下载境外的资源有时太慢,特意将其分享到百度云盘:链接:https://pan.baidu.com/s/1gtJtAaQTqrqTEnNn_NCjYA提取码:7x0b下面列各个工具在网盘上对应的名称以及官网地址基础环境java32bit: jdk-8u251-windows-i586.exe64bit: jdk-8u231-windows-x64.exejava.ora

2020-05-17 14:10:41 711 1

原创 Hadoop基于Windows+eclipse开发环境搭建

0 准备工作:本篇以hadoop2.7.7 + eclipse 2019 03为例先在windows上下载如下包:JDK: https://www.oracle.com/technetwork/java/javase/downloads/index.html 进入下载页面选择一个版本进行下载eclipse: https://www.eclipse.org/downloads/p.........

2019-04-07 18:55:13 4938

原创 基于Ubuntu-Server配置Hadoop伪分布式

Hadoop的安装非常的简单:这里主要讲解伪分布式的安装创建一个用户,在这个用户上配置hadoop 修改hostname 及 hosts 设置免密登录 安装并配置JDK 安装并配置hadoop1. 新建一个用户,不妨就取名为hadoopsudo useradd hadoop -m -s /bin/bash#为新用户配置密码sudo passwd hadoop...

2019-04-04 23:58:03 900

原创 Virtualbox虚拟机网络配置详解

介绍三种联网方式,既可以主机与虚拟机之间相互访问,虚拟机也可访问外网

2019-04-04 22:21:52 32940 9

原创 VirtualBox安装ubuntu-Server版

准备工作:当我们新建好虚拟电脑后,可以开始我们的系统安装了。系统安装根据你电脑的实际情况,比如cpu, 内存等的限制,如果配置不高的情况下,建议安装server版,否则可以选择desktop版下载iso安装镜像, 选择ubuntu版本进行安装,这里以18.04 server版为例。这里可以找到ubuntu的下载列表 http://releases.ubuntu.com/...

2019-04-04 18:09:25 1676

原创 使用VirtualBox创建虚拟机

准备工作:请首先安装虚拟机软件,VMWare(收费或者找破解版) 或者 Virtualbox(开源免费)另外,windows也有一款自带的虚拟软件 Hyper-V,本教程以Virtualbox为例.Virtualbox官网:https://www.virtualbox.org/下面以Virtualbox 6.0版本演示如何新建虚拟电脑:新建虚拟电脑:1)打开安装好的Vir...

2019-04-04 18:01:07 4366

原创 调用静态链接库时遇到的问题

调用静态链接库时遇到的问题:当目标是应用程序时,如果发现静态库中的函数报未找到的情况,很有可能是库的先后顺序问题;当目标是动态库调用静态库,静态库要用-fPIC编译(can not be used when making a shared object; recompile with -fPIC),如果在程序在调用目标动态库时报找不到静态库中的函数,同样可能是库的先后顺序问题解

2016-11-15 09:54:09 1106

原创 CentOS下安装gcc-4.9.2

1.准备工作从软件包中安装的一般都不是最新的版本,比如需要支持C++11等原因,则需要安装最新版gcc。查看位置# which gcc g++查看版本# g++ -v# gcc -v如果系统还没有任何gcc被安装,则需要从开发包中先安装默认的低版本的gcccentos下也可以安装带gcc的开发工具:yum groupinstall "Developmen

2014-12-23 10:57:41 6560 1

转载 LINUX下手动添加swap分区

根据Redhat公司的建议,Linux系统swap分区最适合的大小是物理内存的1-2倍.不过Linux上有些软件对swap分区得需求较大,例如要顺利执行Oracle数据库软件,swap分区至少需要400MB或者物理内存2倍以上的空间.当然我们在安装Linux的时候,就能直接讲swap分区设置到足够的大小,但如果已经安装好Linux了,之后又想再安装类似Oracle的软件,却发现swap分区空间不够

2014-12-23 10:22:22 4063

原创 学习C语言要掌握的10个高级技能

这是在学习杨福林先生的>时,收录总结的一些在C语言开发中的注意事项,希望对朋友们有些帮助,同时也希望来到这里的朋友给予一些补充与修正,多谢!(只是收录总结,希望朋友们不要给我冠以抄袭的头衔)

2010-08-14 18:29:00 3317

大数据导论课件,第一章什么是大数据

课程目标:搭建起通向“大数据知识空间”的桥梁和纽带;构建知识体系、阐明基本原理;引导初级实践、了解相关应用;为学生在大数据领域“深耕细作”奠定基础、指明方向 课程内容介绍: 第一章 什么是大数据 第二章 大数据技术基础 第三章 数据采集与预处理 第四章 大数据存储与管理 第五章 大数据计算框架 第六章 数据挖掘 第七章 数据可视化  第八章 大数据与云计算  第九章 大数据与人工智能 第一章主要内容: 大数据时代的到来(第三次信息化浪潮;信息科技为大数据提供的技术支撑;数据产生方式的变革促成大数据时代的来临;大数据的发展) 大数据的概念(大数据的概念;大数据的特征;大数据与传统数据的对比) 大数据的关键技术 大数据的应用与挑战(大数据的影响; 大数据的应用; 大数据的应用案例; 大数据的挑战)

2023-09-14

pyecharts_doc_v1.9.0.pdf (最新带标签完美版)

为了方便在离线环境下学习Pyecharts,将官方文档制作成pdf文件,带标签。 Echarts 是一个由百度开源的数据可视化,凭借着良好的交互性,精巧的图表设计,得到了众多开发者的认可。而 Python 是一门富有表达力的语言,很适合用于数据处理。当数据分析遇上数据可视化时,pyecharts 诞生了。 目录: 配置项 全局配置项 | 系列配置项 基本使用 图表 API | 示例数据 | 全局变量 图表类型 基本图表 | 直角坐标系图表 | 地理图表 | 3D 图表 | 组合图表 | HTML 组件 进阶话题 参数传递 | 数据格式 | 定制主题 | 定制地图 | 渲染图片 | Notebo

2020-12-24

pyecharts_doc_v1.7.1.pdf

可以去下载新版的中文手册,标签更完美: https://download.csdn.net/download/tangyi2008/13773399

2020-05-29

pyecharts_doc_v1.7.1.pdf

可以去下载新版的中文手册,标签更完美: https://download.csdn.net/download/tangyi2008/13773399

2020-05-29

HBase+MongoDB权威指南

HBase 权威指南, 带目录高清版 MongoDB权威指南, 带目录高清版

2019-04-05

hadoop-eclipse-plugin-2.7.7+winutils+hadoop.dll

hadoop 2.7.7版本的 eclipse plugin + 对应的 winutils.exe和hadoop.dll 配置过程可以参见 https://blog.csdn.net/tangyi2008/article/details/89073110

2019-04-05

Linux与Unix_shell编程指南(电子版).pdf

第一部分 s h e l l 第二部分 文 本 过 滤 第三部分 登 录 环 境 第四部分 基础s h e l l编程 第五部分 高级shell编程技巧

2014-11-21

RFC全集.7z

RFC 文档 合集 协议 ietf

2014-11-18

Visual.C#2010从入门到精通(中英文版,周靖 译).zip

Visual.C#2010从入门到精通(中英文版,周靖 译).zip 带书签文字版,文件列表: [Visual.C#2010从入门到精通].[Microsoft.Visual.C#.2010.Step.by.Step].(John.Sharp).文字版.pdf [Visual.C#2010从入门到精通]中文.pdf

2014-11-01

Erlang程序设计(中文版-完整书签)&Erlang编程指南(中英文版)

Erlang程序设计(中文版-完整书签)&Erlang编程指南(中英文版)

2014-10-30

C#编程语言详解.PDF

c#编程语言详解 专注于讲解语言的基础知识,适合初学者,也适合于在开发中查阅的资料

2014-10-27

ipp_document

收集的一些ipp开发的文档 ipp_manual.zip uscmanual.pdf

2014-10-27

RFC3261(SIP协议)文字版中英文版 RFC4566&RFC6550&RFC2327(SDP描述协议).zip

RFC3261(SIP协议)文字版中英文版 RFC4566&RFC6550&RFC2327(SDP描述协议) RFC2327 (sdp) 中文版.doc RFC2327 (sdp) 中文版.pdf RFC3261(SIP协议)英文版.chm RFC3261(SIP协议)中文版.pdf RFC4566(SDP)中文版.pdf

2014-10-08

51单片机C语言全新教程(pdf非扫描版)

1.8051简介 2.STC89C52RC处理器 3.开发环境 4.工程创建与深入 5.GPIO 6.定时器/计数器与中断 ...

2011-07-04

C程序算法教程(txt版)

收集的编程的一些经典算法,可以开导一些算法的思路

2010-08-14

深入浅出MFC(简体高清pdf版)

一本超精典MFC书籍,是一本技术性很强的书,深入MFC内部,让我们对MFC有更深的了解,从而在应用中更能得心应手。

2009-05-30

C#.COM..编程指南(电子版).pdf

本 书 内 容 本书分成三个部分。每部分都提供理解下一部分所需的信息。本书的组织提供在.NET 中积累COM+编程的技能和理解COM+编程所需的逻辑发展。 第一部分 与COM+的互操作 第一部分介绍名为通用语言运行库(Common Language Runtime)的基本的.NET运行库环境。因为每个.NET应用程序都运行于通用语言运行库中,如果要用C#开发COM+组件则理解这种环境是极其重要的。第一部分的内容包括了与COM世界进行互操作的方法。说明了如何从C#应用程序中使用传统的COM组件。也说明了如何编写COM客户可使用的C#组件。如何开发使用COM组件或从COM组件中使用的分布式应用程序,理解COM与.NET的互操作是很重要的。 第二部分COM+的核心服务 第二部分介绍 COM+的核心服务。所有的核心服务如分布式处理、基于角色的安全性、松散耦合事件、列队组件及其他都是在第二部分介绍的。这部分的各章顺序是按从较为简单的服务到较高级的服务(尽可能好地)组织的。 第三部分 高级COM+计算 本书的最后一部分即第三部分介绍COM+较高级的一些主题。第三部分介绍.NET远程处理框架。.NET 远程处理框架为开发者提供通过网络调用组件方法的途径。正如读者将会看到的,用C#写的COM+组件可通过类层次插入到远程处理框架中。第三部分也讨论了现在的Windows XP所拥有的COM+、Internet信息服务器(Iternet Information Server)和Microsoft消息队列(Microsoft Message Queue)的新功能(所有这些技术都在本书中使用了)。许多 COM+新功能都把重点放在为COM+组件提供更稳定的环境上。

2009-05-22

STL入门教程.ppt

STL的概念与组成 Iterator(迭代器) Container(容器) Algorithm(算法) Adaptors(配接器)

2008-12-31

WIN32编程帮助文件(API大全).rar

Information in this online help system is subject to change without notice and does not represent a commitment on the part of Microsoft Corporation. The software and/or files described in this online help system are furnished under a license agreement or nondisclosure agreement. The software and/or files may be used or copied only in accordance with the terms of the agreement. The purchaser may make one copy of the software for backup purposes. No part of this online help system may be reproduced or transmitted in any form or by any means, electronic or mechanical, including photocopying, recording, or information and retrieval systems, for any purpose other than the purchaser's personal use, without the written permission of Microsoft Corporation.

2008-12-31

MFC类库详解.chm

本书目录 · 层次结构图 直观的描述MFC中各类的关系。 · MFC类 详细解说MFC库中的每个类和头文件信息。 · MFC宏和全局 详细解说MFC库中的每个宏、全局函数、全局变量。 · 结构、风格、回调函数和消息映射 详细解说MFC库中的各个结构、风格、回调函数和消息映射。

2008-12-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除