自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

苏言

Ursula's Blog

  • 博客(3)
  • 收藏
  • 关注

原创 DataWhale_NLP_task03_特征选择

1. TF-IDF原理 TF-IDF = TF(词频)× IDF(逆文档频率) 2. 文本矩阵化,使用词袋模型,以TF-IDF特征值为权重 Python中的TfidfTransformer库 3. 互信息的原理 如果x跟y不相关,则p(x,y)=p(x)p(y)。二者相关性越大,则p(x,y)就相比于p(x)p(y)越大 4. 使用第二步生成的特征矩阵,利用互信息进行...

2019-03-07 21:40:53 63

原创 DataWhale_NLP_task02_特征提取

1. 基本文本处理技能 1.1 分词的概念 正向最大 逆向最大 双向最大匹配法 https://blog.csdn.net/unixtch/article/details/76685429 1.2 词、字符频率统计 Python的collections.Counter模块 2. 语言模型 2.1 语言模型中的一些概念 Unigram:北/京/师/范/大/学 Bigra...

2019-03-04 22:38:48 133

原创 DataWhale_NLP_task01_数据集探索

2. binary classification Step1:Download the IMDB dataset Step2:Explore the data -Convert the integers back to words Step3:Prepare the data Step4:Build the model - Hidden units - Los...

2019-03-03 21:48:22 132

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除