算法
11宁静致远
既然选择了远方,便只顾风雨兼程
展开
-
TF-IDF原理及使用
一. 什么是TF-IDFTF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率). 是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。上述引用总结就是...原创 2018-07-09 00:22:57 · 4298 阅读 · 0 评论 -
jieba中文分词学习笔记一
1、中文分词 在介绍结巴中文分词前,先简单介绍一下中文分词。中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。 最常见的分词算法可以分为三大类:基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法基于字符串匹配的分词方法:这种方法又叫做机械分...原创 2018-07-17 19:07:40 · 14056 阅读 · 0 评论 -
jieba中文分词源码解析(一)
1、结巴的简单使用from __future__ import unicode_literalsimport syssys.path.append("/opt/python_workspace/jieba_demo/jieba-master/")import jiebaimport jieba.possegimport jieba.analyseprint('='*40)p...原创 2018-07-19 23:04:57 · 4096 阅读 · 0 评论 -
朴素贝叶斯算法分析
这两天开始学习朴素贝叶斯算法,下面开始写一些自己查阅资料的总结1、分类问题概述 在介绍朴素贝叶斯算法前,我们先简单了解下分类问题,因为朴素贝叶斯是分类算法中的一种。定义:给定一个对象X,将其划分到预定义好的某一个类别Yi中---输入:X---输出:Y(取值于有限集合{y1,y2,......,yn})应用:人群,新闻分类,query分类,商品分类,网页分类,垃圾...原创 2018-07-29 18:39:00 · 1483 阅读 · 0 评论 -
推荐算法之协同过滤CF
这两天看了一下几个比较重要也很常见的推荐算法,基于内容推荐和基于用户推荐,查阅了不少资料,还是想着将这些整理下来。Collaborative filtering (CF)算法试图找到一种通过用户行为为其提供一种具体建议的模型。他依据用户的行为数据,比如用户对读过书本的评分来判断他们对这本书的喜爱程度,关键问题在于如果有两个用户对其他物品有相似的评分那么其中一个用户对未评分的商品评分跟另一个用户...原创 2018-07-28 13:15:53 · 945 阅读 · 0 评论 -
Raft 协议
分布式一致性协议 Raft,自 2013 年论文发表之后就受到了技术领域的热捧,我认为相对于其他分布式一致性算法,Raft 有效的解决了分布式一致性算法过于复杂及难于实现的问题,这也是 Raft 能异军突起的主要因素。Raft 协议有效的借鉴了美国总统大选的策略,采用精英(Raft 称呼这个精英为 Leader)领导全局的方案,整个集群中只有 Leader 可以处理 c...转载 2019-06-25 15:52:01 · 242 阅读 · 0 评论