大数据分析现有技术与问题

1、数据仓库方法DW:

    -数据移动过程(ETL)浪费资源、性能;

    -随着数据载入,应用越来越小,受制于数据源

2、数据云:

    -大量数据输入,类型是堆,结构混乱,不可用;

    -按来源,最近原则分发、使用;

    -应用上,异构数据来了后,不知道放到哪里去;

3、Big data:

    -内容无限(海量的数据和海量的流量);

    -无边(边界不清、类别模糊);

4、传统的聚类方法

    -怎么找到数据;类在什么?分界线在哪里?

    -从DB上:ETL技术,分类,并行DB+ETL(OLAP)

    -Google:云(Mapreduce)-SQL方式+存储太慢+读写对硬件要求高+PB级以上时性能与需求矛盾大

    -并行DB+Mapreduce:综合数据生成、排序等;

      1)横向规模扩展-节点无限增加,查询性能下降

      2)纵向关系:异构数据(医疗、交通……),可用性?

5、架构型大数据?

   -如果说大数据是有一个架构的,那么如何在架构上发现数据的分类条件(聚类)、边界、最小集、可用与不可用、弱关系与强关系?


浅谈对⼤数据的理解 浅谈对⼤数据的理解 ⼤数据(big data): ⼤数据(big data): 指⽆法在⼀定时间范围内⽤常规软件⼯具进⾏捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策⼒、洞察发现⼒和流程 优化能⼒的海量、⾼增长率和多样化的信息资产。 4V特征: 4V特征: 容量(Volume):数据体量⼤,数据的⼤⼩决定所考虑的数据的价值的和潜在的信息; 种类(Variety):数据类型的多样性,包括传统数据库、图像、⽂件和其他复杂的记录,如果只有单⼀的数据,那么这些数据就没有了价 值,⽐如只有单⼀的个⼈数据,或者单⼀的⽤户提交数据,这些数据还不能称为⼤数据,所以说⼤数据还需要是多样性的,⽐如当前的上⽹ ⽤户中,年龄,学历,爱好,性格等等每个⼈的特征都不⼀样,这个也就是⼤数据的多样性,当然了如果扩展到全国,那么数据的多样性会 更强,每个地区,每个时间段,都会存在各种各样的数据多样性。; 速度(Velocity):指获得数据的速度,就是通过算法对数据的逻辑处理速度⾮常快,1秒定律,可从各种类型的数据中快速获得⾼价值的 信息,这⼀点也是和传统的数据挖掘技术有着本质的不同。; 价值(Value):指价值密度低,,你如果有1PB以上的全国所有20-35年轻⼈的上⽹数据的时候,那么它⾃然就有了商业价值,⽐如通过 分析这些数据,我们就知道这些⼈的爱好,进⽽指导产品的发展⽅向等等。如果有了全国⼏百万病⼈的数据,根据这些数据进⾏分析就能预 测疾病的发⽣,这些都是⼤数据的价值; 原理价值: 原理价值: 某⽐萨店的电话铃响了,客服⼈员拿起电话。 客服:XXX⽐萨店。您好,请问有什么需要我为您服务 ? 顾客:你好,我想要⼀份…… 客服:先⽣,烦请先把您的会员卡号告诉我。 顾客:16846146***。客服:陈先⽣,您好!您是住在泉州路⼀号12楼1205室,您家电话是2646****,您公司电话是4666****, 您的⼿机是1391234****。请问您想⽤哪⼀个电话付费? 顾客:你为什么知道我所有的电话号码? 客服:陈先⽣,因为我们联机到CRM系统。 顾客:我想要⼀个海鲜⽐萨…… 客服:陈先⽣,海鲜⽐萨不适合您。 顾客:为什么? 客服:根据您的医疗记录,你的⾎压和胆固醇都偏⾼。 顾客:那你们有什么可以推荐的? 客服:您可以试试我们的低脂健康⽐萨。 顾客:你怎么知道我会喜欢吃这种的? 客服:您上星期⼀在中央图书馆借了⼀本《低脂健康⾷谱》。 顾客:好。那我要⼀个家庭特⼤号⽐萨,要付多少钱? 客服:99元,这个⾜够您⼀家六⼝吃了。但您母亲应该少吃,她上个⽉刚刚做了⼼脏搭桥⼿术,还处在恢复期。 顾客:那可以刷卡吗? 客服:陈先⽣,对不起。请您付现款,因为您的信⽤卡已经刷爆了,您现在还⽋银⾏4807元,⽽且还不包括房贷利息。 顾客:那我先去附近的提款机提款。 客服:陈先⽣,根据您的记录,您已经超过今⽇提款限额。 顾客:算了,你们直接把⽐萨送我家吧,家⾥有现⾦。你们多久会送到? 客服:⼤约30分钟。如果您不想等,可以⾃⼰骑车来。 顾客:为什么? 客服:根据我们CRM全球定位系统的车辆⾏驶⾃动跟踪系统记录。您登记有⼀辆车号为SB-748的摩托车,⽽⽬前您正在解放路东段 华联商场右侧骑着这辆摩托车。 ⼤数据VS⼩数据 ⼤数据VS⼩数据 ⼩数据跟⼤数据的根本区别在于:⼩数据以单个⼈(个体)为唯⼀对象,重点在于深度,即像⼀位忠诚细致的"个⼈管家"那样对个⼈数据 进⾏全⽅位、全天候地深⼊精确分析,同时还可主动灵活地设置各种外界访问权限以保护个⼈隐私;⽽⼤数据则侧重在某个领域(群体), ⼤范围、⼤规模地进⾏数据的全⾯收集处理分析,侧重点在于⼴度。 使⽤场景 使⽤场景 ⼀般来讲,⼤数据的推动⼒是⼀种被动刺激。各个公司和⼀些专业⾏政机构,⽆论他们是否愿意,都不得不存储和检索⼤量收集到的数据 ⼤数据⽆处不在,⼤数据应⽤于各个⾏业,包括⾦融、汽车、餐饮、电信、能源、体能和娱乐等在内的社会各⾏各业都已经融⼊了⼤数据的 印迹。 制造业,利⽤⼯业⼤数据提升制造业⽔平,包括产品故障诊断与预测、分析⼯艺流程、改进⽣产⼯艺,优化⽣产过程能耗、⼯业供应链分析 与优化、⽣产计划与排程。 ⾦融⾏业:⼤数据在⾼频交易、社交情绪分析和信贷风险分析三⼤⾦融创新领域发挥重⼤作⽤。 汽车⾏业:利⽤⼤数据和物联⽹技术的⽆⼈驾驶汽车,在不远的未来将⾛⼊我们的⽇常⽣活。 互联⽹⾏业:借助于⼤数据技术,可以分析客户⾏为,进⾏商品推荐和针对性⼴告投放。 电信⾏业:利⽤⼤数据技术实现客户离⽹分析,及时掌握客户离⽹倾向,出台客户挽留措施。 能源⾏业:随着智能电⽹的发展,电⼒公司可以掌握海量的⽤户⽤电信息,利⽤⼤数据技术分析⽤户⽤电模式,可以改进电⽹运⾏,合理设 计电⼒需求响应系统,确保电⽹运⾏安全。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值