自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

转载 TF-IDF及其算法

概念     TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用

2018-01-10 11:51:15 431

原创 正则表达式之特殊字符匹配

(,[,{这些括号在正则中有特殊的含义,当需要匹配出字符串包含的这些特殊字符时,需要对这些特殊字符进行转义一般'\(','\[','\{'即可匹配相应括号,或者是'\\(','\\[','\\{'即可如:hive中的regexp_extract()函数,即需要双重转义例如:select regexp_extract('[{"expressComp[anyNa]me":"圆通","exp

2017-12-27 16:44:23 4529

转载 【Python实战】Pandas:让你像写SQL一样做数据分析(一)

1. 引言Pandas是一个开源的Python数据分析库。Pandas把结构化数据分为了三类:Series,1维序列,可视作为没有column名的、只有一个column的DataFrame;DataFrame,同Spark SQL中的DataFrame一样,其概念来自于R语言,为多column并schema化的2维结构化数据,可视作为Series的容器(container);Panel

2017-12-07 19:03:56 1083

原创 使用bat文件在指定目录下打开notebook

假如想要在D:\Python36\notebook文件夹下打开notebook使用如下bat文件命令:cd /d D:\Python36\notebookjupyter notebook或者D:cd D:\python36\notebookjupyter notebook

2017-12-03 12:52:45 608

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除