![](https://img-blog.csdnimg.cn/2019091813595558.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
数据挖掘
文章平均质量分 74
数据挖掘
热爱旅行的小李同学
沉淀。
展开
-
数据挖掘实战(6)——机器学习实现文本分类(今日头条tnews数据集)
1) StratifiedKFold()的split()函数要求同时传入X和y,且对X和y有要求:(特征数,样本数),所以提前将X和y转化为ndarray格式,并reshape(-1, 1)(2)CounterVectorizer()的fit_transform()函数最好传入[str1, str2, str3]格式的list,否则将报错(3)model.fit()报错,百度是不能传稀疏矩阵之类的,将之转化为ndarray解决了。......原创 2022-08-18 12:09:00 · 1170 阅读 · 1 评论 -
数据挖掘实战(5)——关联规则(美国国会投票数据集)
Support(支持度):表示某个项集出现的频率,也就是包含该项集的交易数与总交易数的比例。例如P(A)表示项集A的比例,P(A\cap B)P(A∩B)表示项集A和项集B同时出现的比例。Confidence(置信度):表示当A项出现时B项同时出现的频率,记作{A→B}。换言之,置信度指同时包含A项和B项的交易数与包含A项的交易数之比。公式表达:{A→B}的置信度=P(A|B)=P(A\cap B) / P(BP(A∣B)=P(A∩B)/P(BLift(提升度):指A项和B项一同出现的频率,但同时要考原创 2022-08-15 18:28:31 · 2870 阅读 · 13 评论 -
数据挖掘实战(4)——聚类(Kmeans、MiniBatchKmeans、DBSCAN、AgglomerativeClustering、MeanShift)
数据挖掘实战(4)——聚类(Kmeans、MiniBatchKmeans、DBSCAN、AgglomerativeClustering、Mean聚类的评价指标兰德指数:计算真实标签与聚类标签两种分布相似性之间的相似性,取值范围为[0,1]轮廓系数:是聚类效果好坏的一种评价方式。最早由 Peter J. Rousseeuw 在 1986 提出。它结合内聚度和分离度两种因素。可以用来在相同原始数据的基础上用来评价不同算法、或者算法不同运行方式对聚类结果所产生的影响。[-1,1],轮廓系数越大,聚类效果越好。原创 2022-08-14 22:20:07 · 969 阅读 · 0 评论 -
数据挖掘实战(3)——时间序列预测ARIMA模型(附踩坑日志)
数据挖掘实战(3)——时间序列预测ARIMA模型(附踩坑日志)原创 2022-08-14 00:18:04 · 3242 阅读 · 14 评论 -
数据挖掘实战(2)——糖尿病数据集(回归问题)
数据挖掘实战(2)——糖尿病数据集(回归问题)包括18种模型:线性回归、岭回归、Lasso回归、KNN、SVR、决策树、Bagging、随机森林、极限树、AdaBoost、GBDT、XGBoost、LightGBM、CatBoost、Voting、Stacking、MLP...原创 2022-08-12 16:57:47 · 5256 阅读 · 10 评论 -
数据挖掘实战(1)——手写数字识别
sklearn数据挖掘——多分类实现(手写数字识别)原创 2022-08-12 00:42:23 · 879 阅读 · 0 评论