机器学习
咸鸭蛋泡泡
菜鸟一枚,请大佬多多指教
展开
-
机器学习
机器学习概念机器学习是从数据中自动分析获得规律,并利用规律对未知数据进行预测。优势1.解放生产力2.解决专业问题3.提供社会便利目的让机器学习程序替换手动的步骤,减少企业的成本也提高企业的效率机器学习的数据csv文件 (为什么不放在数据库中呢?1、性能瓶顶,读取速度 2、格式不太符合机器学习要求的数据格式)pandas:强大的读取工具(基于numpy)numpy:速度巨快...原创 2019-06-14 20:15:53 · 140 阅读 · 0 评论 -
机器学习-特征工程-字典特征提取
什么是特征工程?将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的预测准确性,直接影响预测结果。特征抽取对文本等特征进行特征值化,为了计算机更好地理解数据scilit-learn中特征抽取APIsklearn.feature_extraction对字典数据进行特征值化sklearn.feature_extraction.DictVectorizer...原创 2019-06-14 21:47:28 · 584 阅读 · 0 评论 -
机器学习开发流程
数据来源公司本身就有数据合作过来的数据购买的数据开发过程明确做什么问题–建立模型[根据数据类型]数据的基本处理: pd去处理数据(缺失值,合并)特征工程(对特征进行处理)【非常重要】寻找合适的算法进行预测 模型:算法 + 数据模型的评估,判定效果上线使用, 以API形式提供判断数据类型离散型:在区间内不可再分,通常为整数。例如:人的数量连续型:在区...原创 2019-06-20 08:22:06 · 297 阅读 · 0 评论 -
机器学习---K近邻算法
K-近邻算法定义如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。通俗来讲,就是距离相近的两个样本,大概率属于同一个类别,这样通过已知的类别可以判断出未知样本的类别。公式欧氏距离:k-近邻算法:需要做标准化处理k 取值:k越大sklearn k-近邻算法API...原创 2019-06-21 10:57:35 · 187 阅读 · 0 评论 -
机器学习--数据预处理
归一化目的使得单一特征对于最后的结果影响不太大,尤其是错误值API代码演示from sklearn.preprocessing import MinMaxScalerdef mm(): mm = MinMaxScaler() data = mm.fit_transform([[90,2,10,40],[60,4,15,45],[75,3,13,46]])...原创 2019-07-19 17:28:02 · 794 阅读 · 0 评论 -
机器学习--数据降维
特征选择(减少特征的数量)–过滤式原因:冗余:部分特征的相关度高,容易消耗计算性能噪声:部分特征对预测结果有影响思想从方差(Variance)入手,方差相差不多的就过滤掉API代码演示from sklearn.feature_selection import VarianceThresholddef var(): var = VarianceThreshold(...原创 2019-07-19 21:42:39 · 193 阅读 · 0 评论 -
机器学习---文字特征提取
文本特征过程:特征抽取对文本等数据进行特征值化是为了让计算机更好的理解数据from sklearn.feature_extraction.text import CountVectorizer# 实例化CountVectorizervector = CountVectorizer()# 调用fit_transform输入并转换数据res = vector.fit_tran...原创 2019-07-17 20:34:40 · 1806 阅读 · 0 评论