![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
达观杯-文本智能处理挑战赛
Fly嘉
这个作者很懒,什么都没留下…
展开
-
任务1-数据初始
用百度云下载完数据(数据可以用官网下),然后就用python来读取来观察数据,由于数据太大原创 2019-04-05 19:55:42 · 154 阅读 · 0 评论 -
任务2 TF-IDF理论与实践
理论1.什么是TF-IDF?TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术,常用于挖掘文章中的关键词,而且算法简单高效,常被工业用于最开始的文本数据清洗。TF-IDF有两层意思,一层是"词频"(Term Frequency,缩写为TF),另一层是"逆文档频率"(Inverse Document Fr...原创 2019-04-06 11:30:48 · 259 阅读 · 0 评论 -
任务4 LR+SVM模型的尝试
逻辑回归理论面对一个分类问题,我们用线性回归的模型来进行进行分类(注意虽然有回归两个字,但是逻辑回归解决的是分类问题)。线性回归会得到一个具体的数值,然后我们会通过一个激活函数,一般采用Sigmoid函数(因为这个函数曲线光滑)将输出归结到0到1,然后设定一个阈值,高于这个阈值为正,低于这个阈值为负,公式:ϕ(x)=11+e−(wTx+b)\phi (x) = \frac{1}{1+e^{-...原创 2019-04-11 21:55:29 · 104 阅读 · 0 评论 -
任务3 word2vec词向量原理与实践
Word2Vec的定义在讲述 Word2vec 之前,先说NLP (自然语言处理)。NLP 里面,最细粒度的是 词语,词语组成句子,句子再组成段落、篇章、文档。所以处理 NLP 的问题,首先就要拿词语开刀。先举个例子,判断一个词的词性,是动词还是名词。用机器学习的思路,我们有一系列样本(x,y),这里 x 是词语,y 是它们的词性,我们要构建 f(x)->y 的映射,但这里的数学模型 f...原创 2019-04-09 21:48:43 · 444 阅读 · 0 评论 -
任务5 LightGBM模型的尝试
Article directoryLightBGM理论Histogram算法带深度限制的Leaf-wise的叶子生长策略LightGBM实践自己设定参数GridSearchCV调参LightBGM理论LightGBM 是一个轻量级梯度 boosting 框架,使用基于学习算法的决策树。它可以说是分布式的,高效的,有以下优势:更快的训练效率低内存使用更高的准确率支持并行化学习可处理大规...原创 2019-04-13 14:20:48 · 358 阅读 · 0 评论