自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 把Word文本中含有特定关键词的句子批量导入excel表格

把Word文本中含有特定关键词的句子批量导入excel表格

2021-12-03 10:45:52 2250

原创 split分词和tokenize的区别

split分词只把单词分出来,形成由单个单词构成的字符串;tokenize把单词和标点符号都分出来,形成由单词和标点构成的一个字符串变量;但是二者分出的词都是区分大小写的,使用停用词表时,只会删除小写的停用词。...

2020-01-26 14:49:08 1598

原创 词频统计方法及其差异

词频统计方法及其差异不同的方法逻辑不同Collections.Counter、自编for循环计数似乎统计的逻辑不同,这里涉及到文本的预处理问题。否则大小写、包含关系的处理是不一样的。Counter区分大小写,比如在删除停用词之前,counter对the和The是分开统计的;而用for循环自编统计,似乎对二者以及包含the的都会统计进去。...

2020-01-26 13:41:56 720 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除