Competition
程序员椰子橙
这个作者很懒,什么都没留下…
展开
-
daguansummary
1.参赛指导1.1 背景这个比赛是文本分类比赛,比传统的短文本(300词)分类难,现在是长文本(3000词)分类。1.2 监督学习进行分类的基本过程 (假设有一个学习模型f供你使用)原始数据(一段原始文本)→数据预处理(处理后的文本)→特征工程(Features)→输入(模型f)→输出(类别)数据预处理:表情、符号会影响后续的处理,所以去掉;特征工程:生成向量=feature;(是机器...原创 2020-03-16 14:56:04 · 130 阅读 · 0 评论 -
文本分类竞赛-数据初识
数据初识下载数据,读取数据,观察数据将训练集拆分为训练集和验证集下载数据,读取数据,观察数据数据解压下来放在new_data文件夹中,分为train_set和test_set两个文件import numpy as npimport pandas as pdtraining = pd.read_csv("../new_data/train_set.csv")print(training...原创 2019-04-05 21:48:42 · 576 阅读 · 0 评论 -
使用LR和SVM对文本数据进行分类
使用LR和SVM对文本数据进行分类import numpy as npimport pandas as pdtraining = pd.read_csv("D:/ML/competition/daguan/new_data/train_set.csv")# print(training.head())## print(training.shape)# print(training....原创 2019-04-11 03:38:55 · 615 阅读 · 0 评论 -
达观杯参数调优
达观杯参数调优网格搜索法调参模型融合网格搜索法调参模型融合原创 2019-04-16 14:49:08 · 145 阅读 · 0 评论 -
word2vec词向量原理
word2vec词向量原理原创 2019-04-10 01:03:15 · 1222 阅读 · 0 评论 -
达观杯linghtgbm
import lightgbm as LGB """训练LGB分类器"""print("训练LGB分类器")params = { 'boosting': 'gbdt', 'application': 'multiclassova', 'num_class': 19, 'learning_rate': 0.1, 'num_leaves': 31,...原创 2019-04-13 23:19:19 · 141 阅读 · 0 评论