softlayer iso_在IBM SoftLayer上使用Datameer从大数据中获得敏锐的见解

使用Datameer分析和可视化数据

Datameer使您可以轻松地将所有数据集成到Hadoop中。 这是一个端到端平台,消除了大数据分析任务的复杂性。 您可以在数分钟而不是数月内得出数据驱动的决策。 Datameer是一站式商店,可将您的所有数据放入Hadoop,分析数据并以您喜欢的格式可视化见解。

Datameer Analytics App Market是世界上第一个预构建的分析应用程序市场,通过它您可以简单地插入自己的数据并以图形方式查看最终结果。 您无需构建任何东西。

如果您具有从分布式源收集的大量数据,具有不同的结构,具有不断扩大的范围并且具有不同的速度,则Datameer可以帮助您实现数据“虚拟化”。 如果数据在云中,旧数据库中以及桌面上的电子表格中,则Hadoop很有帮助,但不足以使分布式数据有意义。 现在,借助Datameer,您可以像按照向导一样轻松地将所有数据集成到Hadoop中。 通过与所有常见的结构化和非结构化数据源的内置连接器,简化了大数据集成。 您只需在Datameer中指出:

  • 将哪些数据带入Hadoop以及如何
  • 一次性导入还是在添加新数据时进行流式导入
  • 根据您确定的时间表导入

分析工具

使用Datameer,大数据分析就像使用电子表格一样简单。 要建立分析,请使用向导执行以下操作:

  • 选择要在电子表格中使用的数据
  • 从250多种预建的分析功能中进行选择
  • 通过Datameer的Smart Sampling技术,以思想的速度使用迭代式点击分析

Datameer与多个Hadoop平台(例如Cloudera,Hortonworks和MapR)绑定在一起。 Datameer使用IBMBigInsights®,它是Apache Hadoop的可靠且企业就绪的实现。 Datameer和Cloudera共同提供了完整的大数据分析解决方案。 借助Cloudera的企业级数据中心,您可以以Hadoop原始的保真度集中并经济高效地存储所有数据。 任何符合标准的大数据分析平台均可与Datameer平台无缝连接。

可视化

数据分析工具有助于揭示务实的见解,应以用户偏爱的格式提供。 与Designer打包在一起的Datameer所见即所得业务信息图提供了拖放式可视化,而与数据类型,大小或源无关。 您从空白HTML5画布开始设计信息图表报告,该报告将在每次数据更新时自动更新。 您可以导入任何图像,嵌入视频,编写自由格式的文本以及无限地自定义广告。 借助HTML5,您的可视化内容可在任何设备上使用。

系统要求

用于生产环境的推荐硬件包括:

  • 1U服务器
  • 2个四核CPU
  • 8 GB以上的RAM
  • 2 x 1 TB硬盘驱动器(建议可用磁盘空间为250 GB)
  • RAID-0剥离
  • RAID-1个镜像
  • 冗余电源
  • 故障转移需要具有相同配置的备用服务器

表1显示了Datameer支持的操作系统。

表1.支持Datameer的操作系统
操作系统 注释
Ubuntu 10 10.04 LTS MySQL 5.1.41
Ubuntu 12 12.04 LTS MySQL 5.5
Debian 5(莱尼) 5.0.5 MySQL 5.1.47
Solaris 10 10 MySQL 5.1.30
红帽企业Linux(RHEL) 5.5、6.x MySQL 5.0.77
软呢帽 13
14
MySQL 5.1.48
MySQL 5.1.60
CentOS的 5.5
6.x
MySQL 5.0.77
MySQL 5.1.61
科学Linux 6.1 MySQL 5.1.52

在IBM SoftLayer上配置CentOS服务器

要在SoftLayer云中置备虚拟机,请使用以下IP详细信息:

  • 公用IP: 158.85.184.55
  • 伺服器IP: 10.122.153.190
  • 服务器名称: datameerpoc.softlayer.com
  • 地址: 10.122.153.190 / 158.85.184.55
  • 用户: root / xxxxx

安装Datameer

  1. Datameer网站下载Datameer。
  2. 使用WinSCP或FillZilla将datameer_apache_1.0.3-4.5.0-1.noarch.rpm文件拖到目录中的VM中。
  3. 将Datameer软件复制到usr / local目录,如图1所示,然后通过输入以下命令来授予必要的权限:
    chmod -R 777 datameer_apache_1.0.3-4.5.0-1.noarch.rpm
    图1.设置文件权限
    VM屏幕上清单1中的命令
  4. 在VM命令行中,通过输入以下命令来导出软件包:
    export INSTALL_LOCATION=/usr/local
  5. 在安装Datameer之前,请通过输入java -version命令检查是否已安装Java™编程语言。
  6. 如果未安装Java语言,请通过输入以下命令进行安装:
    sudo yum install java-1.7.0-openjdk-devel

    将显示一条消息,显示已安装的Java语言版本以及已安装的依赖项,如图2所示。

    图2.成功的Java语言安装消息
    Java,已安装依赖项
    Java,已安装依赖项

    安装Java语言之后,可以开始Datameer安装。

  7. 通过输入以下命令来扩展归档文件:
    rpm2cpio datameer_apache_1.0.3-4.5.0-1.noarch.rpm | cpio -idmv

    列出了存档中的文件,如图3所示。

    图3.扩展档案
    目录清单

    刷新目录路径。

启动Datameer应用程序服务器

要启动Datameer应用程序服务器:

  1. 通过输入清单1中的命令切换到Datameer。
    清单1.切换到Datameer用户并启动服务器
    su – datameer
    cd /usr/local/Datameer-trial-5.0.1-apache-1.0.3
    cd bin
    ./conductor.sh start
  2. 启动Datameer服务器后,打开URL http://158.85.184.55:8080的浏览器会话,该会话将带您进入Datameer软件协议,如图4所示。

    选择我同意许可条款 ,然后单击继续

    图4.软件协议
    软件协议文本
  3. 您应该看到Datameer仪表板,如图5所示,其中包含用于Home,Browser,App Market和Administration的选项卡。

    在Datameer仪表板的左侧,这些选项是过滤器,管理,分析,数据,示例,图像,用户和可视化。

    选择窗口左侧的管理员

    图5.欢迎屏幕
    加载,分析和可视化数据的教程

将CSV文件上传到Datameer服务器

要开始上传CSV文件,请点击浏览器标签,点击+图标,如图6所示,然后选择数据 > 文件上传

图6.添加项目的图标
过滤器标题上方左上方的图标
  1. 在New File Upload窗口中,如图7所示,单击Browse 。 在文件类型字段中,选择CSV / TSV以使用我们的示例文件,然后单击下一步
    图7.指定文件类型
    从下拉列表中指定文件类型
  2. 图8显示了我们示例的Define Fields选项卡。 Datameer团队在示例应用程序中提供了数据。 该文件显示了不同城市中的人们的年龄。
    图8.定义字段
    定义字段,重新扫描架构
  3. 在Data Details页面上,可以从Data Details选项卡中输入Delimiter,Schema和Column名称,如图9所示。在本文中,我们保留了默认数据,因为这里没有任何客户模式。
    图9.数据详细信息
    设置定界符/模式/忽略行,“数据详细信息”选项卡
  4. 对于样本量,请在Sample选项卡中保留Sample Records字段5000,如图10所示,然后单击Next
    图10.示例
    设置样本记录大小,“样本”选项卡
  5. 提供数据的简短描述,如图11所示,然后单击Save
    图11.保存
    描述数据,保存标签
  6. 图12显示该文件已成功加载到工具中。 选择删除记录 ,其他字段保持不变,然后单击下一步
    图12.占位符
    占位符,如何处理无效数据
  7. 您应该在“数据”标签下看到上传的文件。 指定文件名,然后单击保存 。 如图13所示,您可以看到所有保存的文件。
    图13.保存的文件
    保存的文件
  8. 双击保存的文件(图13中的FileUpload)以查看当前状态,如图14所示。
    图14.文件的当前状态
    上次执行,记录,预览,总数据
  9. 单击新工作簿中的链接数据,然后单击浏览数据以查看结果,如图15所示。
    图15.结果
    带名称/年龄/城市的编号列
  10. 单击Download查看决策树,如图16所示。
    图16.决策树
    创建决策树表
  11. 单击图14中的在新工作簿中链接数据选项卡,以查看使用示例数据的选择,如图17所示。
    图17.分析选项
    选项图标以使用智能分析
  12. 选择图17的红色框中突出显示的Decision Tree Sheet图标,进入图18所示的Settings窗口。在这里,您可以创建所需的表单或设置。 然后,将这些列拖放到设置框中。
    图18.设置
    数据和简单或高级设置
  13. 单击Create Sheet查看输出,如图19所示。
    图19.电子表格
    名称/年龄/城市/预测列
  14. 从工具栏选项中进行选择,该选项在图20中的红色框中突出显示,以创建聚类表,决策树表,建议表,列依赖表和翻转表。 (我们的示例仅提供了一个样本表作为该软件的介绍。)
    图20.选择工作表
    床单类型的图标
  15. 加载的数据将存储在Workbooks的Analytics文件夹下,如图21所示。要查看数据,请选择Home选项卡,然后选择Analytics
    图21.存储的数据
    SkyTestData文件突出显示/键入.wbk / status吗?

分析数据

要开始分析数据:

  1. 在Datameer中,单击“ App Market”选项卡,如图22所示。
    图22.应用市场
    最新/顶部/已安装/我的应用程序选择
  2. 选择并安装LinkedIn Pro Network。 单击Authorize Datameer检索数据 ,如图23所示。将要求您提供LinkedIn个人资料认证。
    图23.安装LinkedIn Pro Network
    提供OAuth令牌信息

    提供相关详细信息后,根据提示单击“ 确定 ”。 登录到LinkedIn Pro Network后,单击Save&Run ,如图24所示。

    图24.保存并运行
    示例令牌信息,突出显示的保存/运行按钮
  3. 图25显示了LinkedIn Pro Network的第一个屏幕,以及您的连接是否成功。
    图25. LinkedIn Pro网络
    应用就绪,可用结果
  4. 等待数据完全加载,然后单击Open infographic以查看LinkedIn Statics屏幕,如图26所示。LinkedIn已对数据进行了排序和可视化。 例如,您可以查看您的LinkedIn个人资料中有多少朋友,有多少共同朋友,他们在世界上的位置等等。
    图26. Linkedin统计
    人/公司网络,热门行业

    图27显示了您朋友在世界各地的位置。

    图27. Linkedin统计
    美国工作地点/国家/地区

例子

本节将介绍Datameer应用程序市场中的示例。

单击App Market选项卡(如图22所示),然后安装Tutorial Email Word应用程序。 该应用程序从您的LinkedIn个人资料中获取数据,并过滤诸如登录次数,使用该程序的次数等信息。

加载应用所需的时间因您的网络速度而异。 当看到“安装教程电子邮件单词复杂性”时,单击“运行” 。图28显示了安装进度。

图28.开始教程电子邮件词的复杂性
检索数据/分析,Hadoop电子邮件已检查

要查看上传到应用程序中的所有数据,复选标记符号应为绿色,如图29所示。

图29.上传的所有数据
数据/哈希电子邮件,分析/电子邮件分析

单击“ 打开信息图”以查看电子邮件内容的可视化,如图30所示。

图30.信息图
一起使用的字词,按时间划分的热门字词

要添加数据并将它们彼此链接:

  1. 单击浏览器选项卡(如图22所示)。
  2. 单击窗口左上方的+图标。
  3. 选择分析 > 工作簿

    您应该看到Add Data窗口,如图31所示。

  4. 选择用户 > 管理员 > 应用程序 > 资源 ,然后单击添加数据
图31.添加数据
将数据预览添加到工作簿

从“简单”选项卡中,选择要显示和下载分区数据的分区,如图32所示,然后单击“全选”

图32.按分区过滤
单击图形上的部分以选择数据

数据已加载,如图33所示。这些列是从业务角度填充的。 您可以按年,按月,按日和按小时查看用户数据。

图33.示例数据
资料栏

添加更多数据

返回“添加数据”窗口,添加更多数据。 选择资源 > 客户... ,然后单击添加数据 ,如图34所示。

图34.添加数据
选择资源,客户文件,单击添加数据

如图35所示,您应该看到ID,Users,Email等的列表。

图35.新数据
ID /用户/电子邮件/角色/激活/购买列

您可以在此处合并两个不同的数据表。 单击工具栏上的Join Sheet来创建一个连接表,如图36所示。

图36.选择工作表和列
选择工作表,列。拖动col定义连接

如图37所示,选择remoteUser > User > Clickstream_Data > Customer_Profile / User ,然后单击Create Joined Sheet

图37.创建连接表
新工作表包含两个或更多工作表中的数据

图38显示了组合数据表。

图38.组合数据表
基于关键列的2张纸上的数据

现在,您已经将两个工作表添加在一起,请从当前工作表中单击“ 添加其他工作表 ”。 您应该看到“公式生成器”窗口。 选择第一列,称为Group,在图39的红色框中突出显示。选择GroupingGROUPBY ,然后单击OK

图39.公式生成器
选择函数,创建公式,输入参数

选择第二列并重复前面的步骤以查看图40中的数据。第二列基于第一列中的所选对象。 (第二列将显示第一列对象的相关属性。)

图40.访客数据
访客,状态,访问量,印象...

要过滤数据,请点击Apply Filter 。 选择您的条件,然后单击Create ,如图41所示。

图41.将过滤器应用于表
结果仅包含记录匹配条件

要保存数据,请从工具栏中单击“ 保存 ”,为文件命名,然后再次单击“ 保存” ,如图42所示。

图42.保存工作簿
将工作簿保存在指定的文件夹中

所有保存的数据都存储在Workbooks文件夹中,如图43所示。

图43.保存的数据
Analytics /工作簿中的Sky New Testdata文件

以图形方式可视化数据

要可视化信息,请单击窗口左上方的+图标,然后选择可视化 > 信息图表 。 您应该看到如图44所示的窗口。

图44.保存的文件

将饼图小部件拖动到画布上。 将数据文件拖到饼图上,以查看图45中所示的结果。

图45.信息图
饼图ABCDE,列数据

从工具栏中单击“ 保存 ”,然后在窗口中单击“ 保存 ”。 图46和图47显示了您选择的项目。

图46.以图形方式可视化数据
保存信息图

从图47中可以选择Browser

图47.选择浏览器
保存信息图

行政

如果需要再次启动应用程序,请输入bin/conductor.sh start

要停止应用程序,请输入bin/conductor.sh stop

结论

有多种平台和工具可帮助您从大数据中提取重要见解,但拥有端到端平台以加快分析过程至关重要。 Datameer被定位为针对内部和外部环境的下一代大数据分析平台。 您可以使用基于云的Datameer减轻与大数据分析相关的许多复杂性。 本文使用一个示例应用程序,展示了如何将Datameer迁移到IBM SoftLayer云并对其进行配置以实现最佳性能。


翻译自: https://www.ibm.com/developerworks/analytics/library/ba-big-data-datameer-softlayer-trs/index.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值