自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 python采集网页数据

7、在此之前我们先要导入lxml库的etree包,使用etree来解析网页数据。9、获取爬取数据的xpath路径并粘贴在python标签内容中。5、把解析内容(表头headers)复制在python文件中。2、获取网页地址(百度、抖音、微博等)8、在网页中定位想要爬取的数据。3、打开开发者模式(F12)1、新建python文件。3、复制网页cURL地址。10、最后打印标签内容。

2023-10-14 21:24:22 570 1

原创 hadoop相关命令

副命名节点 (Secondary NameNode) 别名"次命名节点",是命名节点的"秘书"。任何一个"文件系统"(File System, FS) 都需要具备根据文件路径映射到文件的功能,命名节点就是用于储存这些映射信息并提供映射服务的计算机,在整个 HDFS 系统中扮演"管理员"的角色,因此一个 HDFS 集群中只有一个命名节点。数据节点具有储存数据、读写数据的功能,其中存储的数据块比较类似于硬盘中的"扇区"概念,是 HDFS 存储的基本单位。7 = 4 + 2 + 1 (读写运行权限)

2023-10-04 16:45:08 44 1

原创 xpath总结

XML路径语言(XML Path Language),它是一种基于XML的树状结构,在数据结构树中找寻节点,确定XML文档中某部分位置的语言。需要把源文件转成树状结构,再对树状结构应用相应的xpath查询语句基本语法使用Xpath需要从lxml库中导入etree模块,还需使用HTML类对需要匹配的HTML对象进行初始化(XPath只能处理文档的DOM表现形式)。HTML类的基本语法格式如下。2、XPatha、XPath是XML Path的简称,它是一种用来确定XML文档中某部分位置的语言。

2023-10-04 16:01:34 167 1

原创 hadoop相关知识点总结

b、Hadoop具有优势:高可靠性、高扩展性、高效性和高容错性。c、配置环境变量后重启环境变量并查看hadoop是否安装完成。e、编辑mapred-site.xml文件。b、将jar包上传hadoop1上并解压。b、编辑core-site.xml文件。c、编辑hdfs-site.xml文件。d、编辑yarn-site.xml文件。f、编辑hadoop-env.sh文件。a、hadoop是分布式系统基础架构。a、进入到hadoop文件下编辑。g、编辑worker文件。和MapReduce。

2023-09-24 13:42:33 47 1

原创 python相关知识

a.官网下载(),部署在什么系统就选什么版本b.python版本最好3.8版本以上。

2023-09-17 11:12:54 81 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除