- 博客(3)
- 收藏
- 关注
原创 DataWhale_NLP_task03_特征选择
1. TF-IDF原理 TF-IDF = TF(词频)× IDF(逆文档频率) 2. 文本矩阵化,使用词袋模型,以TF-IDF特征值为权重 Python中的TfidfTransformer库 3. 互信息的原理 如果x跟y不相关,则p(x,y)=p(x)p(y)。二者相关性越大,则p(x,y)就相比于p(x)p(y)越大 4. 使用第二步生成的特征矩阵,利用互信息进行...
2019-03-07 21:40:53 63
原创 DataWhale_NLP_task02_特征提取
1. 基本文本处理技能 1.1 分词的概念 正向最大 逆向最大 双向最大匹配法 https://blog.csdn.net/unixtch/article/details/76685429 1.2 词、字符频率统计 Python的collections.Counter模块 2. 语言模型 2.1 语言模型中的一些概念 Unigram:北/京/师/范/大/学 Bigra...
2019-03-04 22:38:48 133
原创 DataWhale_NLP_task01_数据集探索
2. binary classification Step1:Download the IMDB dataset Step2:Explore the data -Convert the integers back to words Step3:Prepare the data Step4:Build the model - Hidden units - Los...
2019-03-03 21:48:22 132
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人