Tableau(数据抽取)

如果启用的是标准的企业数据库,TABLEAU中做实时分析会比较困难,例如以下情况:
(1)不在办公室,无法连接到数据库;
(2)在Microsoft SQL Server或者Oracle,在数据库很大或者数据库设计人员没有做好完整优化的情况下;
(3)访问的数据源不是桌面端数据,而又想保存一个Tableau打包工作薄(.twbx格式文件:该格式文件包含工作薄内部所有底层数据源),就会出错;
以上几种情形需要使用一个“数据提取(扩展名.tde)”数据源,它是Tableau专有文件(里面包含一个紧密压缩、高速的数据文件,Tableau将其存储在计算机内存中,一般是的是硬盘,底层数据在用到的时候才会进入内存),包含从另一个数据库或者是数据源中导入的所有内容;

连接到某些数据源(例如Salesforce和Google Analytics)是会自动创建数据提取,基于网络的数据源在本地交互,速度可能会比较慢,另外,频繁地与这些网络数据交互可能会超过其供应商给用户设置的服务限制。
创建一个数据提取的首次机会是在最开始连接到数据源时,指明必要的数据源属性后,弹出对话框提示用户是要选择一个实时连接还是创建一个数据提取,可以选择“导入所有数据”来创建一个完整的数据提取,该数据提取包含底层数据源中的所有字段和行;或者选择“导入部分数据”,以显示“创建数据提取”对话框,从中可以设置将用户数据提取限定为底层数据源的一个有限数据集。Tableau一秒钟可以刷新100MM条记录。

转载于:https://www.cnblogs.com/roseHLF/p/tableauhlf.html

将Hadoop数据导入Tableau进行展示通常需要经过以下步骤: 1. **数据抽取(ETL, Extract, Transform, Load)**: - 使用Hadoop的Hive或者Impala等查询工具,从Hadoop HDFS上获取你需要分析的数据。 - 对数据进行预处理,例如过滤、聚合或转换,使其更适合作为Tableau的工作区资源。 2. **数据源配置**: - 在Tableau中,点击“添加数据”->“更多数据源”,然后选择“Amazon Redshift”或“Amazon Athena”作为外部数据源,因为它们可以直接连接Hadoop集群。 - 或者,如果数据已经在Hadoop的Hive Metastore或者其他类似的服务中注册了元数据,可以选择“Hive数据源”。 3. **建立连接**: - 输入服务器地址、用户名和密码等连接信息,连接到你的Hadoop集群。 - 如果有安全认证设置,可能需要提供 Kerberos凭据或其他形式的访问控制。 4. **数据探索**: - 在Tableau中,你可以浏览和选择想要加载的表或视图,也可以直接编写SQL查询提取所需数据。 5. **数据建模**: - 将数据拖放到工作表区域,创建行、列和标记,开始构建你的数据模型。 6. **可视化**: - 利用Tableau的强大可视化功能,创建交互式的图表、仪表盘和故事板。 7. **发布和分享**: - 完成设计后,保存并发布你的工作,或者导出为其他格式供他人查看或下载。 需要注意的是,为了保证性能,可能需要对大表采取分片策略,并优化查询以减少数据传输量。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值