
达观杯nlp算法比赛总结
Datawhale
一个开源的学习组织
展开
-
达观杯_比赛简介
比赛内容此次比赛,达观数据提供了一批长文本数据和分类信息,希望选手动用自己的智慧,结合当下最先进的NLP和人工智能技术,深入分析文本内在结构和语义信息,构建文本分类模型,实现精准分类。评分规则评分算法 binary-classification评分标准 采用各个品类F1指标的算术平均值,它是Precision 和 Recall 的调和平均数。 其中,Pi是表示第i个种类对...原创 2018-09-11 23:22:29 · 2372 阅读 · 0 评论 -
达观杯_概率融合
#import pickleimport pandas as pdimport numpy as npimport timepath='D:/daguanbei/data/proba'print('1 读取概率+投票')svm_1 = pd.read_csv(path+'/result_proba_svm_0.779.csv')svm_2 = pd.read_csv(path+...原创 2018-09-29 16:28:21 · 902 阅读 · 0 评论 -
达观杯_分类融合
import osfrom collections import Counterdef read_dir_by_filter(root_dir,filter): file_list = [] for root,dirs,files in os.walk(root_dir): for filepath in files: if(filte...原创 2018-09-29 16:29:38 · 1048 阅读 · 0 评论 -
组合特征(一)tfidf(word+article)
"""将tfidf(word)和tfidf(article)拼接成新的特征"""import pickleimport pandas as pdfrom sklearn.feature_extraction.text import TfidfVectorizer"""=========================================================...原创 2018-09-30 17:10:05 · 967 阅读 · 0 评论 -
组合特征(二)tfidf(word+article)+lsa
"""将tfidf(word+article)特征降维为lsa特征,并将结果保存至本地,并将结果保存到本地"""from sklearn.decomposition import TruncatedSVDimport pickleimport timet_start = time.time()"""=======================================...原创 2018-09-30 17:11:11 · 903 阅读 · 0 评论 -
组合特征(三)tfidf(word+article+length)
'''特征拼接,拼接文章长度#1.载入特征#2 读文章长度#3 特征缩放,拼接特征'''import pickle# 载入特征with open('tfidf(word+article).pkl','rb') as f: x_train,y_train,y_test = pickle.load(f)# 读取文章长度信息import pandas as pd impo...原创 2018-09-30 17:12:07 · 677 阅读 · 0 评论 -
组合特征(四)linearsvm-tfidf(word)+lr-tfidf(article)
"""将linearsvm挑选的tfidf(word)特征和lr挑选的tfidf(article)"""import picklefrom scipy import sparsefrom scipy.sparse import hstackwith open('linearsvm-tfidf(word).pkl', 'rb')as f_1: x_train_1, y_tr...原创 2018-09-30 17:12:45 · 1062 阅读 · 0 评论 -
组合特征(五)countvector(w)+doc(w)+hash(w)
"""将countvector(word)、hash(word)和doc2vec(word)拼接成新特征"""import picklefrom scipy import sparsefrom scipy.sparse import hstack原创 2018-09-30 17:14:03 · 685 阅读 · 0 评论 -
达观杯_构建模型(四)贝叶斯
"""1.特征:linearsvm-tfidf(word)+lr-tfidf(article) / doc2vec_word2.模型:bayes"""from sklearn.calibration import CalibratedClassifierCVfrom sklearn.model_selection import StratifiedKFoldimport pandas..原创 2018-09-24 10:57:41 · 674 阅读 · 0 评论 -
达观杯_构建模型(三)lightGBM
countvector(a)+doc(a)+hash(a)"""1.特征:countvector(a)+doc(a)+hash(a)2.模型:lgb"""import numpy as npimport pandas as pdfrom sklearn.model_selection import train_test_splitimport pickleimport light...原创 2018-09-23 19:35:02 · 906 阅读 · 0 评论 -
达观杯_构建模型(二)逻辑回归
特征:tfidf(word+article)"""1.特征:tfidf(word+article)2.模型:lr3.参数:C=120"""import pandas as pdimport picklefrom sklearn.linear_model import LogisticRegressionwith open('tfidf(word+article).pkl', ...原创 2018-09-23 19:32:54 · 1121 阅读 · 0 评论 -
特征工程(一)countvectororizer
'''将原始数据的word特征数字化为countvector特征,并将结果保存到本地article特征可做类似处理'''import pandas as pdfrom sklearn.feature_extraction.text import countvectororizerimport pickleimport timet_start = time.time()""...原创 2018-09-23 19:13:00 · 3250 阅读 · 0 评论 -
特征工程(二)TfidfVectorizer
'''将原始数据的word特征数字化为tfidf特征,并将结果保存到本地article特征可做类似处理'''import pandas as pdfrom sklearn.feature_extraction.text import TfidfVectorizerimport pickleimport timet_start = time.time()"""======...原创 2018-09-23 19:16:55 · 1659 阅读 · 0 评论 -
特征工程(三)Doc2Vec
'''将原始数据的word特征数字化为doc2vec特征,并将结果保存到本地article特征可做类似处理'''import pandas as pdimport numpy as npfrom gensim.models.doc2vec import Doc2Vec, TaggedDocumentimport timeimport picklet_start = time...原创 2018-09-23 19:18:59 · 1153 阅读 · 0 评论 -
特征工程(四)HashingVectorizer
'''将原始数据的word特征数字化为hash特征,并将结果保存到本地article特征可做类似处理'''import pandas as pdfrom sklearn.feature_extraction.text import HashingVectorizerimport pickleimport timet_start = time.time()"""======...原创 2018-09-23 19:19:46 · 3240 阅读 · 0 评论 -
特征工程(五)length
'''将原始数据的word的长度特征,并将结果保存到本地article特征可做类似处理'''df_train=pd.read_csv('train_set.csv')df_test=pd.read_csv('test_set.csv')def get_word_len(df_series): word_len=[] for row in df_series: wo...原创 2018-09-23 19:21:11 · 516 阅读 · 0 评论 -
特征工程(六)lsa和lda
lsa"""将tfidf(word)特征降维为lsa特征,并将结果保存至本地,并将结果保存到本地tfidf(article)可做类似处理"""from sklearn.decomposition import TruncatedSVDimport pickleimport timet_start = time.time()&a原创 2018-09-23 19:24:11 · 1588 阅读 · 0 评论 -
特征工程(七)SelectFromModel
linearsvm"""用linearsvm从tfidf(word)中挑选特征,并将结果保存到本地tfidf(article)可做类似处理"""import timeimport picklefrom sklearn.feature_selection import SelectFromModelfrom sklearn.svm import LinearSVCt_sta...原创 2018-09-23 19:26:45 · 3803 阅读 · 0 评论 -
达观杯_构建模型(一)linearSVM
特征:tfidf(word)+tfidf(article)"""1.特征:tfidf(word)+tfidf(article)2.模型:linearsvm3.参数:C=5"""from sklearn.svm import LinearSVC # 支持向量机from sklearn.calibration import CalibratedClassifierCVimport p...原创 2018-09-23 19:30:44 · 1183 阅读 · 0 评论 -
达观杯比赛复盘专题
达观杯比赛简介特征工程1.构建特征countvectororizerTfidfVectorizerDoc2VecHashingVectorizerlength降维lsa 和 ldaSelectFromModel2.组合特征tfidf(word+article)tfidf(word+article)+lsatfidf(word+article+length)lin...原创 2018-09-30 17:22:38 · 1836 阅读 · 2 评论