java数据清洗_做数据分析必须了解的获取数据与清洗数据技巧

​参与文末话题讨论,每日赠送异步图书

——异步小编

每个数据科学家都需要处理存储在磁盘中的数据,这些数据涉及的格式有ASCII文本、PDF、XML、JSON等。此外,数据还可以存储在数据库表格中。在对数据进行分析之前,数据科学家首先要做的是从这些数据源获取各种格式的数据,并对这些数据进行清洗,去除其中的噪声。今天推荐的图书是《Java数据科学指南》一书,并从中节选第一章内容,从本文中我们将学习这些内容,即了解如何从不同数据源获取各种格式的数据。​

21524daa97cbc10c4f47bc0d078d0ca3.png

​在这一过程中,我们将用到外部Java库(Java归档文件,简称JAR文件),这些库的使用不仅限于本文,还贯穿于《Java数据科学指南》一书。这些库由不同开发者或组织开发,方便了大家的使用。编写代码时,我们会用到Eclipse IDE工具,它是Windows平台下最好的集成开发环境,全书都会使用它。接下来,我们将讲解如何导入任意一个外部JAR文件,以下各个部分将指导你把外部JAR文件导入到项目中,跟随步骤动手去做即可。

对于一个Eclipse项目,你可以采用如下方法添加JAR文件:首先依次单击“Project|Build Path|Configure Build Path”,在Libraries选项卡中,单击“Add External JARs”,选择你想添加到项目的外部JAR文件,如图1-1所示。

f117ec4fd49e5b0a78dd5bd12c2f95b8.png

1.2使用Java从分层目录中提取所有文件名

这部分内容(以及后面各部分内容)是为那些想从复杂目录结构中提取文件路径与名称的数据科学家准备的,以方便进一步进行后续分析。这里的复杂目录结构是指在一个根目录下包含大量目录与文件。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值