自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 nlp学习小结

整理目前阶段小结,规划下一步学习计划,加油!!!文本处理经典流程原始文本->分词->清洗->标准化->特征提取->建模->评估清洗:无用的符号、特殊符号、停用词、大写转小写标准化:对齐特征提取:标准化后的词语,用向量表示建模:相似度算法、分类算法一、熟练原理1、熟练常见的分词方法及原理(1)向前最大匹配(2)向后最大匹配(3)考虑语义分词(4)v...

2021-07-18 17:21:09 129

原创 搭建朴素贝叶斯模型 【过滤垃圾邮件】

标题 搭建朴素贝叶斯模型–过滤垃圾邮件经典朴素贝叶斯定理适合用于文本分类场景,垃圾邮件过滤是个典型的二分类场景。先理解几个知识点:1、联合概率分布P(x,y)=P(x|y).P(y) = P(y|x).P(x)2、贝叶斯定理P(x|y)=P(y|x).P(x)/P(y)3、条件独立理解:P(x,y|z) = P(x|z).P(y|z) 表示x和y是条件独立于z的;4、平滑操作:概率大乘积操作过程,只要有一个为0,结果就会为0,会影响到结果的正确性,通常可简单通过平滑操作解决,分子加一、分母加上词

2021-07-17 18:24:19 225

原创 nlp系列-纠错程序

最近在学习nlp相关技术,自己的体会结合培训老师的教学做了些整理,和各位有兴趣的同仁分享。纠错程序是一个用于校验出一句话或一篇文章中出现错误的单词。分三步说明一 搭建环境【有些资料可能涉及到别人的版权,附件就不上传了】我用的工具是python3.6、pycharm,Mac笔记本;准备语料库nltk在pycharm中写个简单的程序text.py,代码如下:import nltkn...

2020-02-15 23:06:44 1254

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除