机器学习
文章平均质量分 76
机器学习笔记
阿提艾斯
知识总结。
展开
-
【机器学习知识整理一】数据加载、数据整理、数值型数据处理
提示:纯小白,刚开始接触机器学习,目前也只是在网上找一些资料学习,权当学习笔记,有理解错误的地方,欢迎提出,我会及时更改。文章目录前言一、向量、矩阵和数组二、加载数据三、数据整理四、处理数值型数据1. 特征缩放2. 特征的标准化3. 归一化观察值4. 生成多项式和交互特征5. 转换特征6. 识别异常值6.1 EllipticEnvelope6.2 四分位差7. 异常值处理8. 将特征离散化9. 使用聚类的方式将观察值分组总结前言提示:参考资料《Python机器学习手册-从数据预处理到深度学习》以.原创 2022-04-05 14:07:20 · 1814 阅读 · 0 评论 -
【机器学习知识整理二】处理分类数据、处理文本、处理日期和时间
系列文章目录上一篇:机器学习基础知识整理一文章目录系列文章目录前言一、处理分类数据1. 对nominal型分类特征编码2. 对ordinal分类特征编码3. 对特征字典编码4. 填充缺失的分类值5. 处理不均衡分类二、处理文本1. 清洗文本2. 解析并清洗HTML3. 移除标点4. 文本分词5. 删除停止词6. 提取词干7. 标注词性8. 将文本编码成词袋9. 按单词的重要性加权三、总结前言提示:参考资料《Python机器学习手册-从数据预处理到深度学习》以及从网上查找的其他资料主要内容:处理原创 2022-04-16 09:40:52 · 2992 阅读 · 0 评论 -
【机器学习bug记录】windows安装NLTK包报错:Resource punkt not found.
项目场景:机器学习中有一部分是做文本分词,将文本分离成独立的单词。需要用到python包NLTK,Natural Language Toolkit,自然语言工具集,这个工具在处理文本方面有很多功能强大的操作。但是通过pip install nltk安装后,使用过程中遇到了问题:Resource punkt not found.问题描述代码from nltk.tokenize import word_tokenizestring = "The science of today is the tec原创 2022-04-10 23:35:09 · 1762 阅读 · 0 评论