达观杯
dayday学习
学习刷题,天天向上
展开
-
达观杯文本处理(一)
达观杯文本处理1一、获取数据2.处理过程1.读取2.分离特征和类别3.将数据shuffle一下。随机一下。一、获取数据1.数据下载数据下载地址:http://www.dcjingsai.com/common/cmpt/“达观杯”文本智能处理挑战赛_赛体与数据.html下载后会得到一个压缩包,训练集和测试集数据均在里面.2.处理过程1.读取直接读取内存爆炸了,本文只选取了其中的一些复...原创 2019-04-05 19:04:37 · 452 阅读 · 0 评论 -
达观杯文本处理(四)--LR,SVM
达观杯文本处理(四)--LR,SVM1.逻辑回归(LR)模型,理论学习和实践1.1 LR 模型1.2 LR的代价函数(cost function)1.3 代码实现2.支持向量机(SVM) 模型,理论学习和实践2.1 SVM模型2.2 线性可分支持向量机2.3 代码实现1.逻辑回归(LR)模型,理论学习和实践1.1 LR 模型LR模型可以被认为就是一个被Sigmoid函数(logistic方程...原创 2019-04-10 19:07:52 · 283 阅读 · 0 评论 -
达观杯文本处理(二)----TF-IDF理论并实践
(一) 特征选择1. TF-IDF原理。什么是TF-IDF:TF-IDF(Term Frequency-Inverse DocumentFrequency, 词频-逆文件频率),一种用于资讯检索和资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现...原创 2019-04-07 13:04:25 · 894 阅读 · 0 评论 -
达观杯文本处理(三)--word2vec
1.Word2VecWord2Vec 是 Google 团队2013年推出的,自提出后被广泛应用在自然语言处理任务中,并且受到它的启发,后续出现了更多形式的词向量模型。Word2Vec 主要包含两种模型:Skip-Gram 和 CBOW,值得一提的是,Word2Vec 词向量可以较好地表达不同词之间的相似和类比关系。参数解释如下:sg=1 是 skip-gram 算法,对低频词敏感;默认 s...原创 2019-04-08 20:22:29 · 285 阅读 · 0 评论 -
达观杯汇总(六)
达观杯汇总本次实验模型的比较1.介绍2.决策树2.1 决策树的定义2. 2 决策树如何做决策3.网格搜索4.贝叶斯4.1朴素贝叶斯算法4.2 代码实现本次实验模型的比较模型f1_score值逻辑回归0.692462311558线性回归0.695477386935lightgbm0.575879396985KNN0.530653266332KN...原创 2019-04-16 10:50:59 · 279 阅读 · 0 评论 -
达观杯linghtgbm(五)
达观杯linghtgbm1.linghtgbm2.linghtgbm代码实现1.linghtgbmLightGBM是个快速的,分布式的,高性能的基于决策树算法的梯度提升框架。可用于排序,分类,回归以及很多其他的机器学习任务中。在竞赛题中,我们知道XGBoost算法非常热门,它是一种优秀的拉动框架,但是在使用过程中,其训练耗时很长,内存占用比较大。在2017年年1月微软在GitHub的上开源了...原创 2019-04-14 09:39:30 · 255 阅读 · 0 评论