- 博客(3)
- 资源 (32)
- 收藏
- 关注
原创 机器学习之朴素贝叶斯分类
贝叶斯概率在机器学习、自然语言处理中被广泛地应用,对于海量数据的文本分类问题(比如垃圾邮件的甄选和过滤),基于贝叶思的算法取得非常好的效果。一、概率基础概率:概率是某一事件或者预测行为的可信程度。取值在0-1之间。比如,抛一枚硬币,正面朝上的可能性和反面朝上的肯能性是相等的,都是0.5.条件概率:条件概率是指在某些前提条件的概率问题。比如,根据美国疾病控制中心美国每年大约有78.5万人罹患心脏病
2016-05-26 18:28:59 2188
原创 scrapy+Lucene搭建小型搜索引擎(现代信息检索大作业)
一、选题工程类搜索型: 定向采集 3-4 个新闻网站, 实现这些网站信息的抽取、索引和检索。网页数 目不少于 10 万条。能按相关度、时间、热度 (需要自己定义) 等属性进行排序, 能实现相似 新闻的自动聚类。 要求: 有相关搜索推荐、snippet 生成、结果预览 (鼠标移到相关结果, 能预览) 功能二、项目线上访问地址项目访问地址:http://120.27.46.201
2016-05-22 22:51:12 17816 17
原创 MapReduce编程实例
需求输入文件:文本文件 每行格式:<source> <destination> <time>3个部分由空格隔开其中source和destination为两个字符串,内部没有空格time为一个浮点数,代表时间(秒为单位)涵义:可以表示一次电话通话,或表示一次网站访问等输入可能有噪音: 如果一行不符合上述格式,应该被丢弃,程序需要正确执行 MapReduce计算:统计每对sourc
2016-05-04 16:42:00 2719
Elasticsearch 5.1.1 java api maven工程 源码下载
2017-04-18
druid-1.0.16.jar
2016-10-29
集体智慧编程中文版
2015-11-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人