机器学习—导论day01

本文探讨了大数据时代的变化,如思维方式的转变、大数据的4V特征,并以电信日志分析项目为例介绍了大数据项目架构。同时,文章阐述了机器学习的基础概念、不同学习类型、数据集的重要性以及经典案例,如手写体识别。最后,强调了机器学习系统设计的思考过程和模型选择的关键因素。
摘要由CSDN通过智能技术生成

一、大数据时代究竟改变了什么?

改变的是思维方式

1、数据的重要性

  • 数据资源–>数据资产(增值)

2、方法论

  • 基于知识的理论完美主义–>基于数据的历史经验主义

3、数据分析

  • 统计学(抽样)–>数据科学(大数据)
  • 数据科学家(大数据+算法+更加丰富的业务知识)

4、计算智能

  • 复杂算法–>简单算法(MapReduce)

5、决策方面

  • 基于目标决策–>基于数据决策

6、业务方面

  • 基于业务的数据化–>基于数据的业务化

7、产业结合

  • 以战略为中心–>以数据为中心

二、大数据的4V特征

1、数据量大

  • TB-PB-ZB
  • HDFS分布式文件系统

2、数据种类多

  • 结构化数据:以mysql数据库为主的存储和处理
  • 非结构化数据:图像、音频等;HDFS、MR、Hive
  • 半结构化数据:XML形式、HTML形式;HDFS、MR、Hive、Spark

3、速度快

  • 数据的增长速度快:TB-PB-ZB;HDFS
  • 数据的处理速度快:MR-HIVE-PIG-Impala(离线);Spark-Flink(实时)

4、价值密度低

  • 价值密度=有价值数据/all
  • 价值高
  • 机器学习算法解决的问题

三、大数据项目架构—以电信日志分析为例

项目名称:电信日志分析系统

项目描述:

电信日志分析系统是以电信用户上网所产生的数据进行分析和统计计算,数据主要来源于用户的上网产生的访问日志和安全日志,通过Hadoop大数据平台完成日志的入库、处理、查询、实时分析、上报等功能,达到异常IP的检测、关键词过滤、违规违法用户的处理等,整个项目的数据量在1T-20T左右,集群数量在10台到100台

项目架构分析:

  • 数据采集层:ftp,socket方式
  • 数据存储层:HDFS
  • 数据分析层:MR/HIVE/IMPALA/SPARK
  • 机器学习层:
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值