![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python数据分析与数据挖掘
文章平均质量分 67
python基础、常用数据分析库、机器学习和深度学习
lucky_xy1997
这个作者很懒,什么都没留下…
展开
-
交叉验证
交叉验证一些概念模型产生包括模型训练和模型验证。模型验证&模型测试:模型验证时模型产生阶段的步骤。测试则是发生在原型产生阶段之后。什么是交叉验证首先交叉验证区别于参数调优。交叉验证是产生训练数据集和验证数据集的方法。K折交叉验证,是交叉验证最常用的一种方法:1)先将数据集划分成k个数据集。2)对于每一种超参数, 依次使用其中的k-1个数据集来训练数据,并用保留的验证集来验证模型。3)模型的总体表现取所有k次验证的平均值。使用sklearn库进行交叉验证为什么使用交叉验证1原创 2021-02-22 21:50:46 · 194 阅读 · 0 评论 -
特征选择方法
特征选择方法为什么进行特征选择1、去除不相关或冗余特征2、减少过拟合,提高泛化能力,缓解维度灾难3、提高模型准确率,加快模型训练速度相关特征:对于学习任务(例如分类问题)有帮助,可以提升学习算法的效果;无关特征:对于我们的算法没有任何帮助,不会给算法的效果带来任何提升;冗余特征:不会对我们的算法带来新的信息,或者这种特征的信息可以由其他的特征推断出特征选择方法一、Filter描述:按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征具体方法:方差原创 2021-02-21 21:16:36 · 399 阅读 · 0 评论 -
特征工程
特征工程选择数据(Select Data): 整合数据,将数据规范化成一个数据集,收集起来.数据预处理(Preprocess Data): 数据格式化,数据清理,采样等。数据转换(Transform Data):这个阶段做特征工程。设计特征:自动特征提取或手工构造选择特征:使用不同的特征选择方法进行特征选择特征监控特征有效性分析:特征重要性(权重)监控重要特征,防止特征质量下降数据建模(Model Data): 建立模型,评估模型并逐步优化。预处理过程单个原创 2021-02-21 20:52:55 · 61 阅读 · 0 评论 -
如何提高机器学习模型预测准确率
如何提高机器学习模型预测准确率转载:https://zhuanlan.zhihu.com/p/25013834这篇文章主要从工程角度来总结在实际运用机器学习进行预测时,我们可以用哪些tips来提高最终的预测效果,主要分为Data Cleaning,Features Engineering, Models Training三个部分。Data Cleaning移除多余的duplicate features(相同或极为相似的features)移除constant features(只有一个val转载 2021-02-17 21:04:29 · 4212 阅读 · 0 评论 -
Boosting
Boosting集成学习有boosting和bagging两种方法Boosting算法是将“弱学习算法“提升为“强学习算法”的过程。将众多弱学习器组合得到一个强学习器。简单来说,就是加法模型(组合基分类器)+前向分布算法(一个接一个训练基分类器)。boosting与bagging的区别1)样本选择上:Bagging:训练集是在原始集中有放回选取的,从原始集中选出的各轮训练集之间是独立的。Boosting:每一轮的训练集不变,只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮原创 2021-02-17 20:55:14 · 165 阅读 · 0 评论 -
机器学习之聚类
机器学习之聚类聚类1、聚类方法有哪些(常用)划分方法: 描述:分裂法构造K个分组。 K-means算法层次方法: 描述:对给定的数据集进行层次似的分解,直到某种条件满足为止。 DIANA、BIRCH、Chameleon基于密度的方法: 描述:基于密度的方法与其它方法的一个根本区别是:它不是基于各种各样的距离的,而是基于密度的。只要一个区域中的点的密度大过某个阈值,就把它加到与之相近的聚类中去。 DBSCAN算法、OPTICS算法模糊聚类: EM算法基于模型的方法:原创 2021-02-17 20:51:26 · 467 阅读 · 0 评论 -
欠拟合与过拟合
欠拟合与过拟合什么是欠拟合?模型学习能力不足,无法学习到数据集中的“一般规律”,导致泛化能力弱。欠拟合解决办法:1)添加其他特征项,有时候我们模型出现欠拟合的时候是因为特征项不够导致的,可以添加其他特征项来很好地解决。例如,“组合”、“泛化”、“相关性”三类特征是特征添加的重要手段,无论在什么场景,都可以照葫芦画瓢,总会得到意想不到的效果。除上面的特征之外,“上下文特征”、“平台特征”等等,都可以作为特征添加的首选项。2)添加多项式特征,这个在机器学习算法里面用的很普遍,例如将线性模型通过添加二原创 2021-02-17 20:25:43 · 192 阅读 · 0 评论 -
数据分析可视化-matplotlib
数据分析可视化-matplotlib1、figure属性:color,linewidth,linestyle2、设置坐标轴plt.xlim设置坐标轴范围plt.xlabel设置坐标轴名称plt.xticks设置x轴刻度使用ax=plt.gca获取当前坐标轴信息. 使用ax.spines设置边框;使用.set_color设置边框颜色:默认白色;ax.xaxis.set_ticks_position设置x坐标刻度数字或名称的位置ax.spines[‘bottom’].set_position(原创 2021-02-01 21:36:59 · 118 阅读 · 0 评论 -
Python数据结构
Python数据结构python基础Six库封装python2和python3之间的差异性尽量使用UTF-8;文件头部指定的编码方式与文件保存编码方式一致。2、ipythoncmd直接进入,输入ipython魔术命令:%timeit [x for x in range(10)] ;%time ; %rest ;%rn *.py(在IPython中执行python脚本)3、IDE环境:eclipse+pyDev;pycharm不涉及web开发;4、python_basic类型转原创 2021-02-01 20:57:19 · 73 阅读 · 0 评论 -
Python数据分析常用包-pandas
Python数据分析常用包-pandas读者需知:本文为个人实践过程中的总结记录,当中有未知变量名为当时实践时使用。一、数据结构以numpy为基础,基于matplotlib可以简单画图。 数据处理能力强三大数据结构 Series(一维);DataFrame(二维);PanelDataFramestock_df=pd.DataFrame(stock_day_rise)(1)索引:行索引(index,axis=0)和列索引(columns,axis=1)增加行索引原创 2021-02-01 21:11:36 · 513 阅读 · 0 评论 -
Numpy
Numpy1、numpy优势:速度:运算速度快在哪里:内存分布连续;实现并行化运算。2、ndarray:相同类型数据集合;n维数组(1)属性:a.shape(形状);a.ndim(维度);a.size(元素的数量);a.itemsize(每个元素占得位数);a.flags。(2)形状:(4,)表示一维数组,有四个元素;(2, 2, 3)表示三维数组,如:b=np.array([[[1,2,3],[4,5,6]],[[7,8,9],[10,11,12]]])。(3)类型:可以指定类型dtype原创 2021-02-01 21:10:55 · 58 阅读 · 0 评论 -
数据分析与挖掘概述
数据分析与挖掘概述相关库:Scipy(矩阵计算)、StatsModels(统计建模和计量经济学)、Gensim(文本主题)、sklearn、keras一、数据探索1、数据质量分析缺失值:删除、对可能值进行插补、不处理异常值分析:简单统计量分析(min,max);偏差超过3倍标准差的值;箱型图分析一致性分析2、数据特征分析(1)分布分析定量数据的分布分析频率分布直方图定性数据的分布分析饼图或条形图(2)对比分析(3)统计量分析集中趋势:均值、中位数、众数离中趋势:极差原创 2021-02-01 21:09:58 · 178 阅读 · 1 评论