自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 收藏
  • 关注

原创 Hadoop HDFS分布式文件系统(介绍以及基础操作命令)

HDFS是Hadoop三大组件(HDFS、MApReduce、YARN)之一。全称是Hadoop Distributed File System(Hadoop分布式文件系统)。是Hadoop技术栈内提供的分布式数据存储解决方案,可以在多台服务器上构建集群,存储海量的数据。2.HDFS基础架构HDFS是一个典型的主从模式的架构HDFS集群分为三个角色:主节点(NameNode):HDFS系统的主角色,是一个独立的进程,负责管理HDFS整个文件系统,负责管理DataNode。

2023-07-20 17:06:40 2776

原创 Hadoop集群安装常见问题以及解决方法

1.切换到root用户(su - root),进入根目录下的etc文件夹(cd //etc),找到sudoers文件,首先对文件权限进行修改(sudo chmod 751 sudoers),修改完成为下图所示。2.打开属性,首先查看hosts文件是不是只读文件,如果是只读文件,将其修改为可修改文件(取消勾选只读),然后对文件进行修改。(2)点击users,在允许一列勾选修改,然后点击确定,重新修改hosts文件并保存。3.如果修改文件后无法保存,显示没有权限,则对hosts文件的权限进行修改。

2023-07-20 09:31:30 2264 2

原创 大数据导论

数据,是指一种可以被鉴别的对客观事件进行记录的记号。简单来说就是对人类行为及产生的事件的一种记录。在日常生活中所产生的信息记录都是数据,例如网购记录,地图导航记录和微信聊天记录等等都是数据。1.大数据大数据,本质上是为了解决海量数据的处理难题,狭义上(技术思维)的大数据是一类技术栈,是一种用来处理海量数据的软件技术体系。而广义上的大数据是数字化时代、信息化时代的基础(技术)支撑,以数据为生活赋能。2.大数据的5V特征:①采集数据量大、存储数据量大、计算数据量大、TB或者PB级别起步。②。

2023-07-13 22:34:32 1033 1

原创 Hadoop集群环境配置及安装配置(详细过程包含安装包)

进入到网络配置文件中。快照,是对虚拟机的当前状态进行保存,在虚拟机出现问题无法解决,可以通过返回快照,使虚拟机返回到快照拍摄状态。4.配置jdk软连接 命令:ln -s /export/servers/jdk1.8.0_361 /export/servers/jdk。3.选择克隆对象,一共有两种方式,第一种是直接克隆虚拟机的当前状态,第二种是选取虚拟机的快照,克隆指定快照的虚拟机状态。构建软连接: ln -s /export/servers/jdk/bin/java /usr/bin/java。

2023-07-07 21:54:57 46760 58

原创 数据认知与预处理(数据挖掘)

基于k均值聚类的分箱:使用k均值聚类法将观测值聚为k类,但在聚类过程中需要保证分箱的有序性,即在第一个分箱中的所有的观测值都要小于第二个分箱中的观测值,第二个分箱中的所有观察值都要小于第三个分箱中的观测值等。分位数是指将所有过程中按递增顺序排列,如何将数据划分为大小基本相同的连续集合每隔一段距离取数据分布上的一个数据点,这个数据点就叫做数据集的分位数。一组数据中出现数据最多的值叫众数,有时众数不止一个,有一个、两个或三个的数据集分别称为单峰、双峰和三峰数据集,有两个及以上众数的数据集统称为多峰数据集。

2023-06-24 22:21:46 172 1

原创 数据挖掘概述

无免费的午餐定理:没有一个数据分析算法可以在任何领域总是产生最准确的数据分析结果,必须针对具体问题讨论具体适用的数据分析方法。数据采集、数据存储、数据清洗、特征提取、特征选择、模型选择、模型训练、模型评测、数据可视化。丑小鸭定理:世界上不存在分类的客观标准,一切分类的标准都是主观的。偏差检测:对分析对象中少数的、极端的特例的描述,揭示内在的原因。大数定律:大量重复实验出现的结果的平均值一定接近于某个确定的值。大数据的5V特点:实时性、多样性、价值大、真实性、体量大。关联分析:寻找数据中值的关联和相关性。

2023-06-24 16:56:59 545 2

原创 HTTP协议与HTTPS协议

无状态:指通信双方在发送的每个消息中都不保留之前消息的状态信息,每个消息处理都是基于它本身信息的而不是从先前收到的消息中提取。例如,DNS就是无状态协议,它的每个查询都是独立的,不受先前查询的影响。SSL握手协议:建立在SSL记录协议之上,用于在实际的数据传输开始前,通讯双方进行身份验证,协商加密算法,交换密钥等。SSL记录协议:建立在可靠的传输协议(TCP之类)上,为高层协议,通过数据封装、压缩、加密等基本功能的支持。常见协议:TCP/IP协议,SOAP协议,HTTP协议,SMTP协议等等。

2023-06-14 14:59:01 429

原创 爬虫基本库介绍(urllib,requests,re)

phtyon内置HTTP请求库,有四个模块:①requests:发起请求url:请求地址 data:请求参数 timeout:设置超时②error:处理错误URLEorror:处理程序在遇到问题时会引发异常(或其派发的异常),只有应该reason属性。HTTPError:是URLError的一个子类,拥有更多的属性(code,reason,headers等),适用于处理特殊HTTP错误。

2023-06-14 13:58:59 488

原创 Web请求过程剖析

客户端渲染:第一次请求,只要一个HTML骨架,第二次请求拿到,数据进行数据展示,在页面源代码中看不到数据。服务端渲染:在服务器那边直接把数据和HTML整合在一起,统一返回给浏览器。在页面代码中,能看到数据。

2023-06-13 22:37:08 50 1

原创 文件读写常见操作

读取所有行并返回列表,若给定sizeint>0,则是设置一次读多少字节,这是为了减轻读取压力。读取一些数据并将其作为字符串(在文本模式下)或字节对象(在二进制模式下)返回。向文件写入一个序列字符串列表,如果需要换行则要自己加入每行的换行符。size:可选参数,选择需要读取字节数。默认为读取全部内容。size:可选参数,选择需要读取字节数。size:可选参数,选择需要读取字节数。通常与open一起使用,用于打开文件后自动关闭文件。将字符串写入文件,返回的是写入的字符长度。读取整行,包括 "\n" 字符。

2023-06-13 20:24:44 68 1

原创 使用Python对AQI历史数据进行爬取

目标网站:天气后报网(www.tianqihoubao.com)数据存储方式:csv文件本地存储。

2023-04-02 15:41:39 368 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除