自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

凡眼观世界

Internet spirit open, sharing and free

  • 博客(9)
  • 收藏
  • 关注

原创 Python中的数据类型

文章目录Python中的数据类型可变数据类型不可变数据类型常用数据类型扩展常见数据类型的操作和转换list列表[ ]list的生成list元素反转、排序和次数统计list元素的添加、删除和取值list添加多个元素、list的合并list的遍历list中使用切片(slice)取值list的深copy和浅copyset集合{ }set的定义set元素的添加、删除和取值set取并集和交集set遍历dic...

2020-04-13 23:08:51 333

原创 Spark入门及常用组件介绍

Spark架构Spark的组件Spark Core实现了 Spark 的基本功能,包含任务调度、内存管理、容错机制、与存储系统交互等模块。还定义了弹性分布式数据集(Resilient DistributedDataSet,简称 RDD),并提供了很多API来创建和操作这些RDD。Spark Core 为其他组件提供底层的服务,其他的四个模块库都是构建在Spark Core和RDD上。Sp...

2020-04-01 17:45:54 1595

原创 Hadoop入门及常用组件介绍

大数据体系架构hadoop介绍Hadoop是一个分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序、搭建大型数据仓库、PB级数据的存储、处理,、分析,、统计等,充分利用集群的威力高速运算和存储。Hadoop可以分为狭义和广义两种:狭义的Hadoop只是Hadoop本身,即HDFS+MapReduce。广义的Hadoop指的是Hadoop生态系统,是一个很庞大的...

2020-03-30 19:14:21 2260

原创 概率检索模型—BM25和BM25F实现文本相关度打分

目标需求给定一个搜索词,从已有文本库中找出最相关的文本BM25模型理论知识这是一个文本检索(Text Retrieve)问题,常用策略是据搜索词对文本库中的文本排序,并选取最相关的返回。下面使用简单易用的BM25算法来实现相似度打分。Q:Query 输入的查询语句q:query 查询语句的词D:Document 文本库中的所有文本d:document 文本库中某一篇文本BM25...

2020-03-16 16:51:04 2081

原创 信息检索—布尔模型(Boolean )和向量空间模型(VSM)

布尔模型(Boolean Model)要从文档集合D={d1,d2,…,dn}中检索出: 包含"北京妹纸",或者"杭州妹纸, "但不包括"日本妹纸"的文档。假设D = {“北京的妹纸豪爽”,“北京是中国首都,而东京不是日本首都,一个妹纸说”,“北京和杭州都是旅游名城”,“杭州的妹纸温婉”}将查询语句表示为布尔表达式:Q = 妹纸 AND (北京 OR 杭州) NOT 日本将布尔表达式Q转...

2020-03-16 15:49:13 5031

原创 向量的模、点乘、叉乘,矩阵乘法和np.dot(a,b)

向量定义:既有方向又有大小的量。设今有向量 A⃗\vec AA=(a1,a2), B⃗\vec BB =(b1,b2)向量的模∣A⃗∣|\vec A|∣A∣ = a12+a22\sqrt{a_1^2+a_2^2}a12​+a22​​AB→\overrightarrow{AB}AB = (b1-a1,b2-b1) , 则:∣AB→∣|\overrightarrow{AB}|∣AB∣...

2020-03-13 23:25:31 5641

原创 linux文件压缩、解压命令

文件压缩、解压、打包、解包zip压缩/unzip解压zip/unzip [参数] 被压缩文件参数:参数 含义-r 压缩所有子目录-d 解压命令# 压缩成zip文件(其中havorld.zip中的.zip可以省略,默认扩展名为zip)zip -r havorld.zip ./havorld/*# 解压zip文件到指定目录unzip -d /home/havorld ha...

2020-03-11 11:38:10 220

原创 Python高阶函数的使用

lambda匿名函数关键字lambda表示匿名函数,冒号前面的表示函数参数,冒号后面的是运算式,返回值就是该表达式的结果。lambda x: x * x #匿名函数等同于下面函数的定义def my_function(x):return x * x我们可以定义fun = lambda x, y: x + yprint(fun(2, 3))lambda的主体是一个表达式,不是...

2020-03-08 16:39:22 160

原创 自定义中文分词

分词常用的分词方法有:基于规则的分词:正向匹配、逆向匹配、双向匹配基于统计的分词:基于语言模型、基于序列模型混合分词:综合多种分词ybm的分词系统综合了语言模型和序列标注模型基于规则的分词基于规则的分词是通过维护字典的方法,在切分语句时将语句中的字符与词典进行逐一匹配去划分词语,是一种比较机械的分词方式my_dict = ["江大桥", "研究", "生命科学", "南京市",...

2020-03-08 10:58:58 643

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除