使用Datameer分析和可视化数据
Datameer使您可以轻松地将所有数据集成到Hadoop中。 这是一个端到端平台,消除了大数据分析任务的复杂性。 您可以在数分钟而不是数月内得出数据驱动的决策。 Datameer是一站式商店,可将您的所有数据放入Hadoop,分析数据并以您喜欢的格式可视化见解。
Datameer Analytics App Market是世界上第一个预构建的分析应用程序市场,通过它您可以简单地插入自己的数据并以图形方式查看最终结果。 您无需构建任何东西。
如果您具有从分布式源收集的大量数据,具有不同的结构,具有不断扩大的范围并且具有不同的速度,则Datameer可以帮助您实现数据“虚拟化”。 如果数据在云中,旧数据库中以及桌面上的电子表格中,则Hadoop很有帮助,但不足以使分布式数据有意义。 现在,借助Datameer,您可以像按照向导一样轻松地将所有数据集成到Hadoop中。 通过与所有常见的结构化和非结构化数据源的内置连接器,简化了大数据集成。 您只需在Datameer中指出:
- 将哪些数据带入Hadoop以及如何
- 一次性导入还是在添加新数据时进行流式导入
- 根据您确定的时间表导入
分析工具
使用Datameer,大数据分析就像使用电子表格一样简单。 要建立分析,请使用向导执行以下操作:
- 选择要在电子表格中使用的数据
- 从250多种预建的分析功能中进行选择
- 通过Datameer的Smart Sampling技术,以思想的速度使用迭代式点击分析
Datameer与多个Hadoop平台(例如Cloudera,Hortonworks和MapR)绑定在一起。 Datameer使用IBMBigInsights®,它是Apache Hadoop的可靠且企业就绪的实现。 Datameer和Cloudera共同提供了完整的大数据分析解决方案。 借助Cloudera的企业级数据中心,您可以以Hadoop原始的保真度集中并经济高效地存储所有数据。 任何符合标准的大数据分析平台均可与Datameer平台无缝连接。
可视化
数据分析工具有助于揭示务实的见解,应以用户偏爱的格式提供。 与Designer打包在一起的Datameer所见即所得业务信息图提供了拖放式可视化,而与数据类型,大小或源无关。 您从空白HTML5画布开始设计信息图表报告,该报告将在每次数据更新时自动更新。 您可以导入任何图像,嵌入视频,编写自由格式的文本以及无限地自定义广告。 借助HTML5,您的可视化内容可在任何设备上使用。
系统要求
用于生产环境的推荐硬件包括:
- 1U服务器
- 2个四核CPU
- 8 GB以上的RAM
- 2 x 1 TB硬盘驱动器(建议可用磁盘空间为250 GB)
- RAID-0剥离
- RAID-1个镜像
- 冗余电源
- 故障转移需要具有相同配置的备用服务器
表1显示了Datameer支持的操作系统。
表1.支持Datameer的操作系统
操作系统 | 版 | 注释 |
---|---|---|
Ubuntu 10 | 10.04 LTS | MySQL 5.1.41 |
Ubuntu 12 | 12.04 LTS | MySQL 5.5 |
Debian 5(莱尼) | 5.0.5 | MySQL 5.1.47 |
Solaris 10 | 10 | MySQL 5.1.30 |
红帽企业Linux(RHEL) | 5.5、6.x | MySQL 5.0.77 |
软呢帽 | 13 14 | MySQL 5.1.48 MySQL 5.1.60 |
CentOS的 | 5.5 6.x | MySQL 5.0.77 MySQL 5.1.61 |
科学Linux | 6.1 | MySQL 5.1.52 |
在IBM SoftLayer上配置CentOS服务器
要在SoftLayer云中置备虚拟机,请使用以下IP详细信息:
- 公用IP:
158.85.184.55
- 伺服器IP:
10.122.153.190
- 服务器名称:
datameerpoc.softlayer.com
- 地址:
10.122.153.190
/158.85.184.55
- 用户:
root / xxxxx
安装Datameer
- 从Datameer网站下载Datameer。
- 使用WinSCP或FillZilla将datameer_apache_1.0.3-4.5.0-1.noarch.rpm文件拖到目录中的VM中。
- 将Datameer软件复制到usr / local目录,如图1所示,然后通过输入以下命令来授予必要的权限:
chmod -R 777 datameer_apache_1.0.3-4.5.0-1.noarch.rpm
图1.设置文件权限
- 在VM命令行中,通过输入以下命令来导出软件包:
export INSTALL_LOCATION=/usr/local
- 在安装Datameer之前,请通过输入
java -version
命令检查是否已安装Java™编程语言。 - 如果未安装Java语言,请通过输入以下命令进行安装:
sudo yum install java-1.7.0-openjdk-devel
将显示一条消息,显示已安装的Java语言版本以及已安装的依赖项,如图2所示。
图2.成功的Java语言安装消息
安装Java语言之后,可以开始Datameer安装。
- 通过输入以下命令来扩展归档文件:
rpm2cpio datameer_apache_1.0.3-4.5.0-1.noarch.rpm | cpio -idmv
列出了存档中的文件,如图3所示。
图3.扩展档案
刷新目录路径。
启动Datameer应用程序服务器
要启动Datameer应用程序服务器:
- 通过输入清单1中的命令切换到Datameer。
清单1.切换到Datameer用户并启动服务器
su – datameer cd /usr/local/Datameer-trial-5.0.1-apache-1.0.3 cd bin ./conductor.sh start
- 启动Datameer服务器后,打开URL http://158.85.184.55:8080的浏览器会话,该会话将带您进入Datameer软件协议,如图4所示。
选择我同意许可条款 ,然后单击继续 。
图4.软件协议
- 您应该看到Datameer仪表板,如图5所示,其中包含用于Home,Browser,App Market和Administration的选项卡。
在Datameer仪表板的左侧,这些选项是过滤器,管理,分析,数据,示例,图像,用户和可视化。
选择窗口左侧的管理员 。
图5.欢迎屏幕
将CSV文件上传到Datameer服务器
要开始上传CSV文件,请点击浏览器标签,点击+图标,如图6所示,然后选择数据 > 文件上传 。
图6.添加项目的图标
- 在New File Upload窗口中,如图7所示,单击Browse 。 在文件类型字段中,选择CSV / TSV以使用我们的示例文件,然后单击下一步 。
图7.指定文件类型
- 图8显示了我们示例的Define Fields选项卡。 Datameer团队在示例应用程序中提供了数据。 该文件显示了不同城市中的人们的年龄。
图8.定义字段
- 在Data Details页面上,可以从Data Details选项卡中输入Delimiter,Schema和Column名称,如图9所示。在本文中,我们保留了默认数据,因为这里没有任何客户模式。
图9.数据详细信息
- 对于样本量,请在Sample选项卡中保留Sample Records字段5000,如图10所示,然后单击Next 。
图10.示例
- 提供数据的简短描述,如图11所示,然后单击Save 。
图11.保存
- 图12显示该文件已成功加载到工具中。 选择删除记录 ,其他字段保持不变,然后单击下一步 。
图12.占位符
- 您应该在“数据”标签下看到上传的文件。 指定文件名,然后单击保存 。 如图13所示,您可以看到所有保存的文件。
图13.保存的文件
- 双击保存的文件(图13中的FileUpload)以查看当前状态,如图14所示。
图14.文件的当前状态
- 单击新工作簿中的链接数据,然后单击浏览数据以查看结果,如图15所示。
图15.结果
- 单击Download查看决策树,如图16所示。
图16.决策树
- 单击图14中的在新工作簿中链接数据选项卡,以查看使用示例数据的选择,如图17所示。
图17.分析选项
- 选择图17的红色框中突出显示的Decision Tree Sheet图标,进入图18所示的Settings窗口。在这里,您可以创建所需的表单或设置。 然后,将这些列拖放到设置框中。
图18.设置
- 单击Create Sheet查看输出,如图19所示。
图19.电子表格
- 从工具栏选项中进行选择,该选项在图20中的红色框中突出显示,以创建聚类表,决策树表,建议表,列依赖表和翻转表。 (我们的示例仅提供了一个样本表作为该软件的介绍。)
图20.选择工作表
- 加载的数据将存储在Workbooks的Analytics文件夹下,如图21所示。要查看数据,请选择Home选项卡,然后选择Analytics 。
图21.存储的数据
分析数据
要开始分析数据:
- 在Datameer中,单击“ App Market”选项卡,如图22所示。
图22.应用市场
- 选择并安装LinkedIn Pro Network。 单击Authorize Datameer检索数据 ,如图23所示。将要求您提供LinkedIn个人资料认证。
图23.安装LinkedIn Pro Network
提供相关详细信息后,根据提示单击“ 确定 ”。 登录到LinkedIn Pro Network后,单击Save&Run ,如图24所示。
图24.保存并运行
- 图25显示了LinkedIn Pro Network的第一个屏幕,以及您的连接是否成功。
图25. LinkedIn Pro网络
- 等待数据完全加载,然后单击Open infographic以查看LinkedIn Statics屏幕,如图26所示。LinkedIn已对数据进行了排序和可视化。 例如,您可以查看您的LinkedIn个人资料中有多少朋友,有多少共同朋友,他们在世界上的位置等等。
图26. Linkedin统计
图27显示了您朋友在世界各地的位置。
图27. Linkedin统计
例子
本节将介绍Datameer应用程序市场中的示例。
单击App Market选项卡(如图22所示),然后安装Tutorial Email Word应用程序。 该应用程序从您的LinkedIn个人资料中获取数据,并过滤诸如登录次数,使用该程序的次数等信息。
加载应用所需的时间因您的网络速度而异。 当看到“安装教程电子邮件单词复杂性”时,单击“运行” 。图28显示了安装进度。
图28.开始教程电子邮件词的复杂性
要查看上传到应用程序中的所有数据,复选标记符号应为绿色,如图29所示。
图29.上传的所有数据
单击“ 打开信息图”以查看电子邮件内容的可视化,如图30所示。
图30.信息图
要添加数据并将它们彼此链接:
- 单击浏览器选项卡(如图22所示)。
- 单击窗口左上方的+图标。
- 选择分析 > 工作簿 。
您应该看到Add Data窗口,如图31所示。
- 选择用户 > 管理员 > 应用程序 > 资源 ,然后单击添加数据 。
图31.添加数据
从“简单”选项卡中,选择要显示和下载分区数据的分区,如图32所示,然后单击“全选” 。
图32.按分区过滤
数据已加载,如图33所示。这些列是从业务角度填充的。 您可以按年,按月,按日和按小时查看用户数据。
图33.示例数据
添加更多数据
返回“添加数据”窗口,添加更多数据。 选择资源 > 客户... ,然后单击添加数据 ,如图34所示。
图34.添加数据
如图35所示,您应该看到ID,Users,Email等的列表。
图35.新数据
您可以在此处合并两个不同的数据表。 单击工具栏上的Join Sheet来创建一个连接表,如图36所示。
图36.选择工作表和列
如图37所示,选择remoteUser > User > Clickstream_Data > Customer_Profile / User ,然后单击Create Joined Sheet 。
图37.创建连接表
图38显示了组合数据表。
图38.组合数据表
现在,您已经将两个工作表添加在一起,请从当前工作表中单击“ 添加其他工作表 ”。 您应该看到“公式生成器”窗口。 选择第一列,称为Group,在图39的红色框中突出显示。选择Grouping和GROUPBY ,然后单击OK 。
图39.公式生成器
选择第二列并重复前面的步骤以查看图40中的数据。第二列基于第一列中的所选对象。 (第二列将显示第一列对象的相关属性。)
图40.访客数据
要过滤数据,请点击Apply Filter 。 选择您的条件,然后单击Create ,如图41所示。
图41.将过滤器应用于表
要保存数据,请从工具栏中单击“ 保存 ”,为文件命名,然后再次单击“ 保存” ,如图42所示。
图42.保存工作簿
所有保存的数据都存储在Workbooks文件夹中,如图43所示。
图43.保存的数据
以图形方式可视化数据
要可视化信息,请单击窗口左上方的+图标,然后选择可视化 > 信息图表 。 您应该看到如图44所示的窗口。
图44.保存的文件
将饼图小部件拖动到画布上。 将数据文件拖到饼图上,以查看图45中所示的结果。
图45.信息图
从工具栏中单击“ 保存 ”,然后在窗口中单击“ 保存 ”。 图46和图47显示了您选择的项目。
图46.以图形方式可视化数据
从图47中可以选择Browser 。
图47.选择浏览器
行政
如果需要再次启动应用程序,请输入bin/conductor.sh start
。
要停止应用程序,请输入bin/conductor.sh stop
。
结论
有多种平台和工具可帮助您从大数据中提取重要见解,但拥有端到端平台以加快分析过程至关重要。 Datameer被定位为针对内部和外部环境的下一代大数据分析平台。 您可以使用基于云的Datameer减轻与大数据分析相关的许多复杂性。 本文使用一个示例应用程序,展示了如何将Datameer迁移到IBM SoftLayer云并对其进行配置以实现最佳性能。
翻译自: https://www.ibm.com/developerworks/analytics/library/ba-big-data-datameer-softlayer-trs/index.html