数据挖掘与算法竞赛
jassy_shan
一名SJTU小硕编程菜鸟的逆袭
展开
-
达观杯”文本智能处理挑战赛
竞赛信息1.网址http://www.dcjingsai.com/common/cmpt/“达观杯”文本智能处理挑战赛_竞赛信息.html2.任务建立模型通过长文本数据正文(article),预测文本对应的类别(class)3.数据数据包含2个csv文件:train_set.csv:此数据集用于训练模型,每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列:第...原创 2019-04-05 18:56:02 · 415 阅读 · 0 评论 -
达观杯”文本智能处理挑战赛
回顾昨天已对数据进行初步的预处理,接昨天的任务1:https://blog.csdn.net/weixin_38966454/article/details/89046445**第二天 TF-IDF算法实现*一.什么是TF-IDF TF-IDF(Term Frequency-Inverse DocumentFrequency, 词频-逆文件频率),一种用于资讯检索和资讯探勘的常用...原创 2019-04-06 19:04:07 · 135 阅读 · 0 评论 -
达观杯”文本智能处理挑战赛
回顾任务1-----对数据进行初步的预处理:https://blog.csdn.net/weixin_38966454/article/details/89046445任务2----F-IDF算法实现https://blog.csdn.net/weixin_38966454/article/details/89058683Now任务3—word2vec算法实现1.什么是word2ve...原创 2019-04-10 17:02:43 · 183 阅读 · 0 评论 -
O2O优惠券预测复盘(一)
天池o2o优惠券比赛初级版本:使用线性回归模型,后期会持续优化导入相关库import os,sys,pickleimport numpy as npimport pandas as pdfrom datetime import datefrom sklearn.model_selection import KFold,train_test_split,StratifiedKFold...原创 2019-05-10 14:07:08 · 799 阅读 · 0 评论 -
O2O优惠券复盘(二)
回顾:接O2O优惠券预测复盘(一),对模型进行优化https://blog.csdn.net/weixin_38966454/article/details/90057156优化模型优化模型主要体现在以下几个方面:特征工程 机器学习算法 模型集成本文将尝试采取机器学习算法-----决策树模型进行优化建立决策树模型使用上面的14个特征 训练集:20160...原创 2019-05-12 20:24:43 · 429 阅读 · 0 评论