作者:禅与计算机程序设计艺术
1.简介
随着互联网、移动互联网、物联网等新型通信技术的广泛应用和普及,越来越多的人开始将其作为数据源,生成海量的数据。这些数据既包括来自各类传感器的数据,也包括用户行为日志、社交网络数据、搜索引擎关键词数据、电子邮箱等非结构化数据。这些数据的处理、分析和挖掘对于了解客户需求、优化业务运营、改善服务质量至关重要。而对于很多从事计算机视觉、模式识别、自然语言处理、推荐系统等领域的科研工作者来说,在进行数据挖掘任务时常常会遇到很多困难。为了帮助大家解决数据挖掘过程中遇到的问题,本书根据实际经验编写,并结合作者多年从事机器学习和深度学习相关工作经验,力求用通俗易懂的语言阐述最新的机器学习方法和算法,同时重点介绍实践中可能遇到的一些问题和挑战。 本书共分六章,主要内容如下:
- 概览:介绍了数据挖掘的基本概念、分类、方法、评价指标和应用场景。
- 数据预处理:介绍了如何收集、清洗和准备数据,如缺失值处理、异常值检测、数据集划分、特征抽取等技术。
- 特征工程:介绍了如何利用特征工程技术提升模型效果,如特征选择、降维、正则化、交叉验证等技术。
- 模型构建:介绍了基于树形结构的决策树、支持向量机、神经网络、聚类、关联规则和随机森林等模型构建方法。并对每种模型给出了一些典型案例。
- 模型评估:介绍了常用的模型评估指标,如准确率、召回率、F1-Score、ROC曲线