- 博客(4)
- 收藏
- 关注
原创 Hadoop:大数据处理的核心框架
Hadoop是一个由Apache基金会所开发的分布式系统基础架构,主要解决的是海量数据的存储和计算问题。Hadoop具有高效、可靠、可扩展和容错性强的特点,使得它成为大数据处理领域的核心框架之一。Hadoop主要由HDFS(Hadoop Distributed File System)和MapReduce两部分组成。HDFS负责数据的存储,而MapReduce则负责数据的计算。Hadoop通过分布式存储和分布式计算,实现了对海量数据的快速处理和分析。
2024-04-30 21:51:31 1292 4
原创 爬虫:静态网页的爬取
还是简单介绍一下BeautifulSoup,BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库。这个库能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。它是一个解析器,可以特定的解析出内容,省去了我们编写正则表达式的麻烦。同时,Beautiful Soup支持多种格式和语法,可以通过不同的解析器快速解析和查找网页文档.。
2023-12-22 02:49:36 2752
原创 Python可视化基础:画图小试
本文将介绍如何使用Python进行数据可视化一些常用的数据可视化库。通过学习这些库,你可以轻松地将数据转化为直观的图形,从而更好地理解数据背后的信息
2023-12-21 15:15:18 1018
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人