- 博客(4)
- 收藏
- 关注
原创 HDFS分布式文件系统入门教程
假定已有数据文件data.txt,存储在本地计算机(Windows系统)的E盘中,现需要将该数据文件上传至HDFS的/user/root/目录下,常用的解决方法如下。某社交网站有数百万注册用户,网站的服务器上保留了用户登录网站的日志记录,用户每登录一次网站,将在日志文件中记录一次用户的邮件地址,现有一份社交网站在 2021年某一天的原始日志文件email_log.txt,共800万行记录,部分数据如下所示。Hadoop集群也有专有的文件系统,即HDFS,HDFS也使用了类Linux的目录结构进行文件存储。
2024-04-19 11:14:22 1080 2
原创 网络爬虫爬取动态网页数据
对于动态网页的数据可以直接使用模拟浏览器运行的方式进行实现,这样做就可以不用管网页内部是如何使用JavaScript渲染页面的,也不用管Ajax请求中到底有没有加密参数,在浏览器中看到是什么样的内容,抓取的结果便是什么样的内容。,Selenium的Alert类中提供了text属性、 accept()方法、 dismiss)方法和send_keys()方法,前三个属性或方法的作用与确认框中的作用相同, send_keys()方法用于接收用户输入的内容。WebDriver类中定位单个元素的方法如下所示。
2023-12-11 15:33:16 3962
原创 Python数据分析与可视化依赖的两个对象
是利用数学、统计学理论与实践相结合的科学统计分析方法,对Excel据、数据库中的数据、收集的大量数据、网页抓取的数据进行分析从中提取有价值的信息并形成结论进行展示的过程包括狭义数据分析和数据挖掘。狭义的数据分析通过数据的统计分析发现数据中的信息,分析数据结果背后的原因则是通过数学算法和模型挖掘数据潜在规律,还可以预测数据的未来的走向。
2023-12-04 20:09:43 1695
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人