自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 爬取我们所需要的信息

今天所要爬取的网页信息是豆瓣网里的电影无数遍合集里的影视信息。首先进入我们的豆瓣网站,

2023-10-15 15:30:24 1311 1

原创 一些简单的linux命令总结

编辑文件时,默认进入的时非编辑状态,用“i”进入编辑模式,保存且退出用“:wq”,不保存退出用“:q”,强制退出则需要在这两个命令后多加一个“!1.1 ls命令———显示目录下的内容及相关属性信息(默认查看当前目录)1.4 mkdir命令———创建目录。1.5 touch命令———创建文件。1.6 cp命令———复制文件或目录。1.7 mv命令———移动文件或目录。1.8 rm命令———删除文件或目录。1.2 cd命令———切换目录。..———当前目录的上级目录。1.9 vi 编辑器。

2023-10-06 00:24:26 58 1

原创 Python爬取网页简单知识梳理

在使用requests库进行网页抓取时,首先要做的就是发送HTTP请求。具体来说,可以使用requests.get()方法来发送GET请求,并接收响应内容。,在解析大型文档时速度非常快,归档也特别好,且提供了简单的转换方法来将数据转换为python数据类型,从而使文件操作更容易。Python中有很多专门用于网络爬虫开发的库,比如requests、beautifulsoup4、lxml等等。例题:查找class="line-4"行中a标签中src内容。定义一个URL 地址;发送HTTP 请求;

2023-10-05 14:46:49 48

原创 Hadoop的集群搭建与部署

起初 "export JAVA_HOME="前面自带了一个“#”,“#”的作用是屏蔽的意思,但是我们需要配置且后续还要启动,所以需要把“#”去掉。进入配置文件时,用 i 进入insert 模式(也就是编写模式),编写完成后我们再使用esc按键退出编写模式回到查看模式。所需要注意的是,分发命令中我使用的是我虚拟机创建目录下的路径。首先我们进入我们的虚拟机,然后进入hadoop目录中,可以使用ls查看文件下的配置文件。下载好JDK安装包后,解压到我们所创建的文件夹中,接着我们需要配置环境变量。

2023-09-24 16:35:28 138 1

原创 利用网络爬虫来获取我们所需要的信息

随着网络的迅速发展,成为大量信息的载体,我们如何有效地提取并利用这些信息呢?那么就不得不提到一个概念——“网络爬虫”

2023-09-17 13:37:18 1311 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除