data mining
数据挖掘专栏
条件反射104
中国科学院大学自动化研究所
展开
-
动手学数据挖掘笔记(建模与评估)
建模与评估建模1.建模标准①处理完前面的数据我们就得到建模数据,下一步是选择合适模型。②在进行模型选择之前我们需要先知道数据集最终是进行监督学习还是无监督学习。③模型的选择一方面是通过我们的任务来决定的。④除了根据我们任务来选择模型外,还可以根据数据样本量以及特征的稀疏性来决定。⑤刚开始我们总是先尝试使用一个基本的模型来作为其baseline,进而再训练其他模型做对比,最终选择泛化能力或性能比较好的模型。2.模型创建①创建基于线性模型的分类模型(逻辑回归)。②创建基于树的分类模型(决策原创 2020-08-27 20:42:50 · 502 阅读 · 0 评论 -
动手学数据挖掘笔记(数据可视化)
数据可视化1.可视化展示泰坦尼克号数据集中男女中生存人数分布情况(用柱状图试试):sex = text.groupby('Sex')['Survived'].sum()sex.plot.bar() # 画出柱状图plt.title('survived_count')# 设置标题plt.show()2.可视化展示泰坦尼克号数据集中男女中生存人与死亡人数的比例图(用柱状图试试):# 提示:计算男女中死亡人数 1表示生存,0表示死亡text.groupby(['Sex', 'Survived'原创 2020-08-26 11:18:03 · 430 阅读 · 0 评论 -
动手学数据挖掘笔记(数据重构)
数据重构数据合并1.使用concat方法:将数据train-left-up.csv和train-right-up.csv横向合并为一张表,并保存这张表为result_up。list_up = [train_left_up, train_right_up]result_up = pd.concat(list_up, axis=1)当axis为默认的0时,是纵向合并dataframe。2.使用DataFrame自带的方法join方法和append合并dataframe:resul_up = te原创 2020-08-23 19:53:11 · 315 阅读 · 0 评论 -
动手学数据挖掘笔记(数据清理&特征处理)
文章目录数据清理&特征处理缺失值观察与处理重复值观察与处理特征观察与处理数据清理&特征处理缺失值观察与处理1.显示缺失值数量:df.info()df.isnull().sum()2.对缺失值进行处理(1)处理缺失值一般有几种思路(2) 请尝试对Age列的数据的缺失值进行处理(3) 请尝试使用不同的方法直接对整张表的缺失值进行处理df[df['Age']==None] = 0df[df['Age'].isnull()] = 0df[df['Age'] == np.na原创 2020-08-21 22:32:55 · 501 阅读 · 0 评论 -
动手学数据挖掘笔记(数据加载及探索性数据分析)
数据加载及探索性数据分析1.在用read_csv()函数读取数据时,有时数据量会很大,可以用chunksize参数来设置读取的长度,分批读取并分批处理。2.当dataframe中的特征是英文时可以,可以将其转化为中文。df.rename(columns={'PassengerId':'乘客编号', 'Survived':'是否幸存', 'Pclass':'乘客仓位等级', 'Name':'乘客名字', 'Sex':'性别', 'Age':'年龄', 'SibSp':'堂兄弟/妹个数', 'Parch'原创 2020-08-19 20:37:24 · 328 阅读 · 0 评论 -
集成学习(Ensemble Learning)(Boosting、Bagging和结合策略)
文章目录集成学习(Ensemble Learning)1.Boosting2.Bagging3.结合策略3.1Averaging3.2Voting3.3stacking集成学习(Ensemble Learning)在传统机器学习算法当中,单个的学习器可能并不能达到非常好的效果,但如果结合多个弱学习器的结果,模型的表现可能会有一定程度的提升。因此集成学习所做的就是将一系列具有差异的个体学习器,通过某种策略结合起来,从而达到更好的学习效果。下面介绍常见的集成学习方法。1.BoostingBoostin原创 2020-06-02 21:42:55 · 2441 阅读 · 11 评论 -
数据挖掘 之 数据预处理(《Python数据分析与挖掘实战》)
在数据挖掘中,原始数据存在大量不完整、有异常的数据,严重影响建模的执行效率,甚至会导致结果偏差,因此非常有必要进行数据清洗,数据清洗完成后接着或同时进行数据集成、转换、规约等一系列处理,这个过程就是数据预处理。总而言之,数据预处理的主要内容包括数据清洗、数据集成、数据变换和数据规约。一、数据清洗数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理...原创 2020-03-31 22:28:25 · 2444 阅读 · 0 评论 -
数据挖掘 之 数据探索(《Python数据分析与挖掘实战》)
1.数据质量分析数据质量分析保证了数据的准确性和有效性,其主要任务是检查原始数据中是否存在脏数据,脏数据主要包括:缺失值异常值不一致的值重复数据以及含有特殊符号(如#、¥、*)的数据① 缺失值分析有删除、插补、不处理三种缺失值处理方法。② 异常值分析(1)简单统计量分析可以先对变量做一个描述性统计,进而查看哪些数据是不合理的。pandas.describe()就可以查看数据的...原创 2020-03-31 11:39:26 · 1232 阅读 · 0 评论 -
数据挖掘:EDA-数据探索性分析(以天池比赛——二手车交易价格预测为例)
数据分析主要步骤1.载入各种数据科学以及可视化库:数据科学库 pandas、numpy、scipy;可视化库 matplotlib、seabon;其他;2.载入数据:载入训练集和测试集;简略观察数据(head()+shape);3.数据总览:通过describe()来熟悉数据的相关统计量通过info()来熟悉数据类型4.判断数据缺失和异常查看每列的存在nan情况异常值检测...原创 2020-03-22 22:19:18 · 1242 阅读 · 0 评论 -
天池比赛——二手车交易价格预测(主要步骤)
Step 1:导入函数工具箱Step 2:数据读取1) 数据简要浏览2) 数据信息查看3) 数据统计信息浏览Step 3:特征与标签构建1) 提取数值类型特征列名2) 构建训练和测试样本3) 统计标签的基本分布信息4) 缺省值填补Step 4:模型训练与预测1) 利用xgb进行五折交叉验证查看模型的参数效果2) 定义xgb和lgb模型函数3)切分数据集(Train,Val...原创 2020-03-21 16:18:59 · 2371 阅读 · 0 评论 -
预测问题评价指标:MAE、MSE、R-Square、MAPE和RMSE
MAE、MSE、R-Square、MAPE和RMSE以上是对于预测问题的评价指标。1.平均绝对误差(Mean Absolute Error, MAE)误差越大,该值越大。2.均方误差(Mean Squared Error, MSE)误差越大,该值越大。SSE(和方差)与MSE之间差一个系数n,即SSE = n * MSE,二者效果相同。3.均方根误差(Root Mean Squa...原创 2020-03-21 16:04:30 · 12902 阅读 · 1 评论 -
分类问题评价指标:精度、召回率、准确率、F1 score、ROC曲线
精度、召回率、准确率、F1 score的概念及ROC曲线这几个概念是对应于分类问题的。首先我们定义如下表格:.Actual PositiveActual NegativePredict PositiveTrue Positive (TP)False Positive (FP)Predict NegativeFalse Negative (FN)True N...原创 2020-03-21 14:34:00 · 3849 阅读 · 0 评论