自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 bag-of-words

文章目录一、bag-of-words1.1 词袋特性二、过滤2.1 stopwords2.1.1 停用词是什么2.1.2 停用词使用情景2.1.3 NLTK使用2.1.4 从一段文本中删除停用词一、bag-of-words1.1 词袋特性词袋是统计文本中每个单词出现的次数实质上是将文本展平为一维向量词袋没有顺序词袋也没有词语之间意思上的包含关系。比如动物包含狗,猫等。二、过滤2.1 stopwords2.1.1 停用词是什么将数据转换为计算机可以理解的内容的过程称为预处理。预处理的

2020-10-05 10:08:52 353

翻译 python处理停用词(stopwords)

python处理停用词stopwords停用词是什么从一段文本中删除停用词停用词是什么将数据转换为计算机可以理解的内容的过程称为预处理。预处理的主要形式之一是过滤掉无用的数据。在自然语言处理中,无用的单词(数据)称为停用词。停用词是指搜索引擎已编程忽略的常用词(例如“the”,“a”,“an”,“in”)。我们不希望这些单词占用我们数据库中的空间,或占用宝贵的处理时间。为此,我们可以通过存储要停止使用的单词的列表轻松删除它们。python中的NLTK(自然语言工具包)具有以16种不同语言存储的停用词

2020-07-14 17:50:10 33385 3

原创 python切割字符串

Series切割字符串python切割字符串有两种方式,一是使用正则表达式,一种是使用split()函数。使用正则表达式的方式正则表达式的使用可以参考正则表达式 - 匹配规则举例使用,假设对于Name列英文名Braund, Mr. Owen Harris,提取出中间名Mr,如图所示:使用split()函数也可以使用split函数直接分割...

2020-06-30 15:48:09 4097

原创 python的round函数

python的round函数python中round函数round(x,n),其中x为输入的数据,n为要保留的小数位。例如round(2.145,2)输出2.14。如果n省略或者为none则四舍五入输出整数但是对于两边都相近的情况,优先输出偶数。同时因为有些小数无法用浮点数精确表示,可能输出有偏差。...

2020-06-30 15:20:30 508

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除