自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 HDFS分布式文件系统入门教程

假定已有数据文件data.txt,存储在本地计算机(Windows系统)的E盘中,现需要将该数据文件上传至HDFS的/user/root/目录下,常用的解决方法如下。某社交网站有数百万注册用户,网站的服务器上保留了用户登录网站的日志记录,用户每登录一次网站,将在日志文件中记录一次用户的邮件地址,现有一份社交网站在 2021年某一天的原始日志文件email_log.txt,共800万行记录,部分数据如下所示。Hadoop集群也有专有的文件系统,即HDFS,HDFS也使用了类Linux的目录结构进行文件存储。

2024-04-19 11:14:22 881 2

原创 网络爬虫爬取动态网页数据

对于动态网页的数据可以直接使用模拟浏览器运行的方式进行实现,这样做就可以不用管网页内部是如何使用JavaScript渲染页面的,也不用管Ajax请求中到底有没有加密参数,在浏览器中看到是什么样的内容,抓取的结果便是什么样的内容。,Selenium的Alert类中提供了text属性、 accept()方法、 dismiss)方法和send_keys()方法,前三个属性或方法的作用与确认框中的作用相同, send_keys()方法用于接收用户输入的内容。WebDriver类中定位单个元素的方法如下所示。

2023-12-11 15:33:16 2560

原创 Python数据分析与可视化依赖的两个对象

是利用数学、统计学理论与实践相结合的科学统计分析方法,对Excel据、数据库中的数据、收集的大量数据、网页抓取的数据进行分析从中提取有价值的信息并形成结论进行展示的过程包括狭义数据分析和数据挖掘。狭义的数据分析通过数据的统计分析发现数据中的信息,分析数据结果背后的原因则是通过数学算法和模型挖掘数据潜在规律,还可以预测数据的未来的走向。

2023-12-04 20:09:43 880

原创 Java入门教程

分支中包含分支方法名([参数列表])参数列表实际参数。

2023-12-01 10:41:33 1049 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除