- 博客(5)
- 收藏
- 关注
原创 Hadoop简介
(1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构(2)主要解决海量数据的存储和海量数据的分析计算问题(3)广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。(1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。
2023-10-15 22:08:31 50 1
原创 虚拟机的卸载
注:可以下载清除工具彻底清除:https://www.ccleaner.com/zh-cn(图中为使用流程)至此,虚拟机卸载完成,注册表信息也已删除。
2023-10-06 17:25:56 219 1
原创 Python爬虫机制
最后,如果你的时间不是很紧张,并且又想快速的提高,最重要的是不怕吃苦,建议你可以联系维:762459510 ,那个真的很不错,很多人进步都很快,需要你不怕吃苦哦!从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HTML代码/JSON数据/二进制数据(图片、视频) 爬到本地,进而提取自己需要的数据,存放起来使用。通过解析库提供的方法,根据网页的HTML结构,选择合适的标签、类名、ID等进行定位,并提取出所需的数据。请求的发起是使用 http 库向目标站点发起请求,即发送一个Request。
2023-09-23 00:18:32 1014 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人