python数据预处理技术与实践教程_Python数据预处理技术与实践

本书结合作者的项目经验,从实际工程需求出发,循序渐进地介绍了大数据预处理相关技术、流行工具与应用案例,全书分为三部分,核心内容概要如下:

*部分 数据预处理的基础知识。包括数据预处理的基本概念、工作流程、应用场景、开发环境、入门演练和Python科学计算工具包Numpy、SciPy、Pandas的实际应用等。

第二部分 数据预处理的实战进阶。内容包括:

数据采集与存储,主要涉及数据结构类型和采集方式,着重介绍了爬虫技术以及不同格式的文本信息抽取和文件读取。

高效读取文件、正则清洗文本信息、网页数据清洗和文本批量清洗。

中文分词精讲、封装分词工具包、NLTK词频处理、命名实体抽取和批量分词处理。

特征向量化处理,涉及数据解析、缺失值处理、归一化处理、特征词文本向量化、词频-逆词频、词集模型、词袋模型和批量文本特征向量化。

基于Gensim的文本特征向量化,涉及构建语料词典、词频统计、词频-逆词频计算、主题模型和特征降维等。

主成分分析PCA降维技术的原理和实际案例。

Matplotlib数据可视化分析案例。

第三部分 数据预处理的实际应用。主要介绍竞赛神器XGBoost的算法原理、应用、优化调参以及数据预处理在文本分类中的实际应用。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值