当前搜索:

机器学习之朴素贝叶斯分类

贝叶斯概率在机器学习、自然语言处理中被广泛地应用,对于海量数据的文本分类问题(比如垃圾邮件的甄选和过滤),基于贝叶思的算法取得非常好的效果。一、概率基础概率:概率是某一事件或者预测行为的可信程度。取值在0-1之间。 比如,抛一枚硬币,正面朝上的可能性和反面朝上的肯能性是相等的,都是0.5.条件概率:条件概率是指在某些前提条件的概率问题。 比如,根据美国疾病控制中心美国每年大约有78.5万人罹患心脏病...
阅读(1394) 评论(0)

[置顶] scrapy+Lucene搭建小型搜索引擎(现代信息检索大作业)

一、选题工程类搜索型: 定向采集 3-4 个新闻网站, 实现这些网站信息的抽取、索引和检索。网页数 目不少于 10 万条。能按相关度、时间、热度 (需要自己定义) 等属性进行排序, 能实现相似 新闻的自动聚类。 要求: 有相关搜索推荐、snippet 生成、结果预览 (鼠标移到相关结果, 能预览) 功能 二、项目线上访问地址 项目访问地址:http://120.27.46.201...
阅读(10516) 评论(12)

MapReduce编程实例

需求输入文件:文本文件 每行格式: 3个部分由空格隔开 其中source和destination为两个字符串,内部没有空格 time为一个浮点数,代表时间(秒为单位) 涵义:可以表示一次电话通话,或表示一次网站访问等 输入可能有噪音: 如果一行不符合上述格式,应该被丢弃,程序需要正确执行 MapReduce计算:统计每对sourc...
阅读(1888) 评论(0)
    《从Lucene到Elasticsearch:全文检索实战》
    Lucene、ES、ELK开发交流群:370734940
    Lucene、ES、ELK开发交流
    个人资料
    • 访问:817247次
    • 积分:8423
    • 等级:
    • 排名:第2656名
    • 原创:196篇
    • 转载:2篇
    • 译文:6篇
    • 评论:446条
    StackOverFlow
    http://stackoverflow.com/users/6526424
    统计
    博客专栏
    文章分类
    最新评论