自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 收藏
  • 关注

原创 mysql(8.0及以上版本)管理用户命令总结

主机ip地址如果设置成localhost,那就只有本地能够登录这个用户 ,如果设置成%的话,任意主机都可以连接此用户。

2024-03-25 14:54:13 218

原创 scrapy爬取到的数据为空

网上说是【allowed_domains】需要补全,所以尝试了把【start_urls】的内容复制给了【allowed_domains】,最终尝试了发现是头信息里的cookie没有设置,scrapy默认用了它内部设置的头信息。使用scrapy爬取58同城的数据,发现xpath路径正确,第一次运行确实可以输出数据,但是第二次运行后却返回了一个空列表,代码如下。3.设置headers,添加cookie,以及UA,如果有referer的话也添加进去。又因为第一次运行时能够输出内容,因此排除了xpath路径问题。

2024-03-21 22:43:12 156

原创 爬虫中常用到的库和方法总结

urllib和requests在使用过程中常使用的一些方法和数据类型的总结

2024-03-21 10:48:42 711

原创 大数据集群常用端口号

历史服务器网页端口号19888,集群内部端口号是10020。yarn的ResourceManager网页端8088。namenode 网页端口号9870。namenode内部端口号 8020。

2023-07-26 11:03:16 147

原创 Hyper-V导致虚拟机出现故障解决方法

Hyper-V导致虚拟机故障解决方法

2023-07-26 10:55:11 586

原创 HQL-优化方法

hql优化方法

2023-07-20 10:47:55 365

原创 java-快速实现不同进制之间的转换

java中进制转换

2023-07-17 22:23:13 610

原创 rdd算子分类

2023-07-16 11:02:27 22

原创 RDD的持久化存储方法

RDD持久化存储三种方法的区别

2023-07-14 09:48:18 20

原创 spark学习-如何判断方法是在Driver端还是在Executor端执行

spark如何判断是在Driver端执行还是在Exector端执行

2023-07-13 15:43:48 183

原创 spark学习-rdd算子

rdd算子的总结

2023-07-13 11:31:10 197

原创 hive的去重的方法总结

原始数据用户id是102的有多个下单日期根据需求,需要进行去重。distinct会对他后面所有的字段进行一个去重。如果distinct放在两个字段中间会报错。3.利用排行窗口函数 row_number。1.利用关键字distinct。2.利用group by去重。

2023-07-01 09:53:15 413

原创 hive设置本地模式插入数据时产生的错误

新版本的Hive启动的时候,默认申请的JVM堆内存大小为256M,JVM堆内存申请的太小,导致后期开启本地模式,执行复杂的SQL时经常会报错。(1)修改$HIVE_HOME/conf下的hive-env.sh.template为hive-env.sh。(2)将hive-env.sh其中的参数 export HADOOP_HEAPSIZE修改为2048,因此最好提前调整一下HADOOP_HEAPSIZE这个参数。

2023-06-30 22:07:10 409

原创 linux常用命令

添加用户目录添加到指定目录 useradd -d 路径 name。删除用户,但不删除/home下的主目录 userdel name。删除用户的同时删除用户主目录 userdel -r name。用户创建之后默认就在自己gid标识的组。usermode -g 新组 旧组。添加用户 useradd name。

2023-06-30 15:01:36 26

原创 窗口函数-lead,lag

这两个窗口函数是为了获取当前行,上面或者下面某行中某个字段的值。

2023-06-23 08:37:59 101 1

原创 HDFS读写数据流程

1.客户端通过Distributed FileSystem模块向集群中的namenode发送请求上传数据2.namenode检查客户端是否有创建目录权限,以及要创建的目录是否已经存在,如果满足条件,namenode向客户端发出响应可以上传文件3.客户端上传block,请求集群给出datanode4.集群返回若干datanode。5.客户端通过FSDataOutputStream模块请求dn1上传数据,dn1收到请求会继续调用dn2,然后dn2调用dn3,将这个通信管道建立完成。

2023-06-06 18:20:49 100

原创 HDFS的shell命令

hdfs的shell命令可以hadoop fs开头也可以是hdfs dfs开头。

2023-06-06 16:27:59 812

原创 numpy学习记录

ndarray是一个多维数组对象由两部分构成1.包含实际的数据2.包含描述这些数据的元数据(数据维度、数据类型等)ndarray数组一般要求所有元素类型相同(同质),数组下标从0开始ndarray是n维数组对象包含两部分:1.数据部分2.包含数据的元数据信息。

2023-06-06 10:52:55 43

原创 计算机网络-传输层

传输层是主机才有的层次,主机和主机之间的网络设备最高只到网络层功能:1.实现进程与进程之间的逻辑通信2.复用和分用:复用:就是两个进程所发送的报文段,使用同一个传输层协议传送到网络层。分用:把收到的报文段交付给特定的进程,qq消息交给qq,微信消息交给微信。3.传输层对收到的报文进行差错检验,收到的报文就是网络层传输报文的数据部分。

2023-06-03 18:30:37 37

原创 requests库使用学习

如果使用response.text的话会报错,因为r.text是按照字符串形式返回会导致保存图片出错,然而r.content是按照二进制形式返回的。可以先在浏览器随意搜索一个词,查看字典内的key值是什么。如果响应的内容打印出现乱码,可以使。

2023-06-03 10:22:10 28

原创 MapReduce学习总结

优点缺点。

2023-05-27 09:51:03 235

原创 xshell远程连接阿里云服务器遇到的问题

5.查看ssh服务状态显示: error: Bind to port 22 on 0.0.0.0 failed: Address already in use.无法解决,只好再重新开启一个ssh的端口 :2023 ,并且在阿里云安全组中添加2023端口。1.首先在自己的命令行窗口ping + 服务器公网ip查看是否连通。4.使用阿里云通过Workbench远程连接,在终端开启ssh服务。点击安全组 -> 配置规则 ->点击手动配置->配置指定端口。在安全组内如果没有开启的话会导致无法连接。

2023-05-23 15:02:37 1008

原创 hive中sql操作

comment:是对数据库的注释,是字符串location: 设置数据库在hdfs中的路径 ,默认路径是 /user/hive/warehouse/数据库名.db,指定路径使用单引号。with dbproperties 给数据库设置一些键值。

2023-05-20 15:22:47 452 1

原创 虚拟机中的网络模式

在虚拟机中进行网络连接测试,查看虚拟机是否和主机连接在虚拟机中使用主机ip可以在命令行窗口输入ipconfig查看主机ip地址在虚拟机终端查看是否能够ping通。

2023-05-19 11:12:41 900 1

原创 vim操作

一般模式:在终端输入进入一般模式,在一般模式只能进行。编辑模式:点击a,i,o中的任意键进入编辑模式。命令模式:在一般模式输入“ :”进入命令模式。

2023-05-19 09:05:38 109 1

原创 centos下载镜像文件

如果电脑是win10系统的话就选择x86版本,点击进入如图界面。3.点击任意一个镜像源,选择以iso结尾的文件下载。2.根据系统选择合适的版本。1.进入centos官网。

2023-05-17 21:22:40 3993

原创 Idea内的如何使用debug

在程序左侧,可以点击鼠标左键设置断点,如图所示。

2023-05-16 16:44:21 71

原创 java中的进程和线程

1.进程1.进程在java中每运行一个程序就会产生一个进程进程的名字就是程序名称。使用while循环使程序能够不断运行。使用javac 编译java程序使用java 命令执行java程序不关闭程序执行界面,再次打开一个命令行窗口使用jps命令查看正在运行的进程。

2023-05-13 16:50:41 157

原创 android-SharedPreferences的使用步骤

sharedpreferences的使用

2023-04-11 23:16:34 645 1

原创 java中把数组中的元素转变成字符串

整形数组转变成字符串

2023-04-04 09:15:24 394 1

原创 ssh连接出现的问题

ssh免密登录其他节点产生错误解决方法

2022-10-22 10:04:54 156

原创 大数据处理架构Hadoop

目录什么是hadoop呢?从课本中了解到是一个开源分布式计算平台 ,为用户提供分布式基础架构,可以想象hadoop是一座戏台供各式各样的角色(各种功能组件)发挥作用,hadoop和它的各种功能组件的作用是用来存储和处理海量数据。hadoop有五大重要特性hadoop有1.x版,2.x版,3.x版 其中1.x和2.x最大的不同是 在1.x时处理数据和分配资源是由mapreduce独自完成的,而2.x版将调度资源的功能分配给了yarn,mapreduce只负责数据处理。HDFS分布式文件管理系统是hadoop

2022-06-23 10:56:10 279

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除