- 博客(4)
- 收藏
- 关注
原创 Hadoop基础入门
简介简介Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Distributed File System),其中一个组件是HDFS(Hadoop Distributed File System)。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;
2024-04-26 21:02:06 546 3
原创 什么是网络爬虫
又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。网络爬虫可以根据指定的规则,从互联网上下载网页、图片、视频等内容,并抽取其中的有用信息进行处理。网络爬虫的工作流程包括获取网页源代码、解析网页内容、存储数据等步骤。根据其目的和工作方式的不同,网络爬虫可以分为多种类型。常见的网络爬虫包括通用爬虫、聚焦爬虫、增量式爬虫等。
2023-12-11 15:53:51 2119 1
原创 python数据分析与可视化常见的图形及其绘制
df1=df.groupby('工作地所在省份').size().sort_values(ascending=False)df=pd.read_excel('...航空公司数据.xlsx',encoding='gbk')df=pd.read_excel('...航空公司数据.xlsx',encoding='gbk')df['飞龄']=(now-df['入会时间']).dt.days//365。df['入会年份']=df['入会时间'].dt.year。min=int(df['飞行次数'].min())
2023-12-07 11:11:50 1581
原创 Java的特性与C++的区别
总之,Java和C++都是非常流行的编程语言,它们各自具有独特的特点和优势。System.out.println("较大的数是:" + max);cout << "较大的数是:" << num1 << endl;cout << "较大的数是:" << num2 << endl;System.out.println("请输入第一个整数:");System.out.println("请输入第二个整数:");cout << "请输入第一个整数:";cout << "请输入第二个整数:";
2023-12-04 20:48:29 1756
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人