机器学习
咸鸭蛋泡泡
菜鸟一枚,请大佬多多指教
展开
-
机器学习
机器学习 概念 机器学习是从数据中自动分析获得规律,并利用规律对未知数据进行预测。 优势 1.解放生产力 2.解决专业问题 3.提供社会便利 目的 让机器学习程序替换手动的步骤,减少企业的成本也提高企业的效率 机器学习的数据 csv文件 (为什么不放在数据库中呢?1、性能瓶顶,读取速度 2、格式不太符合机器学习要求的数据格式) pandas:强大的读取工具(基于numpy) numpy:速度巨快...原创 2019-06-14 20:15:53 · 141 阅读 · 0 评论 -
机器学习-特征工程-字典特征提取
什么是特征工程? 将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的预测准确性,直接影响预测结果。 特征抽取 对文本等特征进行特征值化,为了计算机更好地理解数据 scilit-learn中特征抽取API sklearn.feature_extraction 对字典数据进行特征值化 sklearn.feature_extraction.DictVectorizer ...原创 2019-06-14 21:47:28 · 596 阅读 · 0 评论 -
机器学习开发流程
数据来源 公司本身就有数据 合作过来的数据 购买的数据 开发过程 明确做什么问题–建立模型[根据数据类型] 数据的基本处理: pd去处理数据(缺失值,合并) 特征工程(对特征进行处理)【非常重要】 寻找合适的算法进行预测 模型:算法 + 数据 模型的评估,判定效果 上线使用, 以API形式提供 判断数据类型 离散型:在区间内不可再分,通常为整数。例如:人的数量 连续型:在区...原创 2019-06-20 08:22:06 · 302 阅读 · 0 评论 -
机器学习---K近邻算法
K-近邻算法 定义 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。 通俗来讲,就是距离相近的两个样本,大概率属于同一个类别,这样通过已知的类别可以判断出未知样本的类别。 公式 欧氏距离: k-近邻算法:需要做标准化处理 k 取值:k越大 sklearn k-近邻算法API ...原创 2019-06-21 10:57:35 · 194 阅读 · 0 评论 -
机器学习--数据预处理
归一化 目的 使得单一特征对于最后的结果影响不太大,尤其是错误值 API 代码演示 from sklearn.preprocessing import MinMaxScaler def mm(): mm = MinMaxScaler() data = mm.fit_transform([[90,2,10,40],[60,4,15,45],[75,3,13,46]]) ...原创 2019-07-19 17:28:02 · 802 阅读 · 0 评论 -
机器学习--数据降维
特征选择(减少特征的数量)–过滤式 原因: 冗余:部分特征的相关度高,容易消耗计算性能 噪声:部分特征对预测结果有影响 思想 从方差(Variance)入手,方差相差不多的就过滤掉 API 代码演示 from sklearn.feature_selection import VarianceThreshold def var(): var = VarianceThreshold(...原创 2019-07-19 21:42:39 · 197 阅读 · 0 评论 -
机器学习---文字特征提取
文本特征过程: 特征抽取对文本等数据进行特征值化 是为了让计算机更好的理解数据 from sklearn.feature_extraction.text import CountVectorizer # 实例化CountVectorizer vector = CountVectorizer() # 调用fit_transform输入并转换数据 res = vector.fit_tran...原创 2019-07-17 20:34:40 · 1813 阅读 · 0 评论