- 博客(4)
- 收藏
- 关注
转载 TF-IDF及其算法
概念 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用
2018-01-10 11:51:15 431
原创 正则表达式之特殊字符匹配
(,[,{这些括号在正则中有特殊的含义,当需要匹配出字符串包含的这些特殊字符时,需要对这些特殊字符进行转义一般'\(','\[','\{'即可匹配相应括号,或者是'\\(','\\[','\\{'即可如:hive中的regexp_extract()函数,即需要双重转义例如:select regexp_extract('[{"expressComp[anyNa]me":"圆通","exp
2017-12-27 16:44:23 4529
转载 【Python实战】Pandas:让你像写SQL一样做数据分析(一)
1. 引言Pandas是一个开源的Python数据分析库。Pandas把结构化数据分为了三类:Series,1维序列,可视作为没有column名的、只有一个column的DataFrame;DataFrame,同Spark SQL中的DataFrame一样,其概念来自于R语言,为多column并schema化的2维结构化数据,可视作为Series的容器(container);Panel
2017-12-07 19:03:56 1083
原创 使用bat文件在指定目录下打开notebook
假如想要在D:\Python36\notebook文件夹下打开notebook使用如下bat文件命令:cd /d D:\Python36\notebookjupyter notebook或者D:cd D:\python36\notebookjupyter notebook
2017-12-03 12:52:45 608
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人