mongodb搭建
文章平均质量分 77
申涛
无他,唯勤思考而已!
展开
-
mongodb搭建校内搜索引擎——网页文本的规范化
目标: 在已经获得网页内容的前提下,除去自己不想要的内容,并且转化为 json格式的文本,导入到mongodb数据库中。概要: 在上一次基础上(详见mongodb搭建校内搜索引擎——爬取网页文本)利用BeautifulSoup继续处理文本,过滤自己不感兴趣的标签中的文本,并用jieba分词模块,将文本分割成关键词,同时获得关键词在这个网页文档中的权重,最后用Python序列化,将原创 2016-02-11 13:01:20 · 687 阅读 · 0 评论 -
mongodb搭建校内搜索引擎——爬取网页文本
**读取excle文档中存储的url列表,爬取列表中网页的文本内容概要: 在已经在获得爬虫获取的url列表的工作基础上,进行网页内容的获取。编程用到request(获取网页源码),BeautifulSoup(解析html,并且获取网页纯文本),lxml(解析html,在使用BeautifulSoup要预先安装),Xlrd(读取excle中内容)我的思考: 一开始想用正则表达式来判原创 2016-02-04 19:41:24 · 1053 阅读 · 0 评论 -
BM25算法详解
BM25算法通过加入文档权值和查询权值,拓展了二元独立模型的得分函数。这种拓展是基于概率论和实验验证的,并不是一个正式的模型。BM25模型在二元独立模型的基础上,考虑了单词在查询中的权值以及单词在文档中的权值,拟合综合上述考虑的公式,并通过实验引入经验参数。 公式如下:原创 2016-02-17 20:21:48 · 32486 阅读 · 1 评论 -
centos下mongodb3.2数据库的备份与恢复初步
数据库的备份 mongodump -h dbhost -d dbname -o dbdirectory-h MongDB所在服务器地址,在本地操作时服务器默认地址是127.0.0.1。 -d 需要备份的数据库实例。-o 备份的数据存放位置,在该位置下会成与你实例为名的文件夹,在文件夹下有collection 的bson和json文件。 完成后可以输入mongodump查看 数据库的恢复原创 2016-04-01 11:43:37 · 2290 阅读 · 0 评论 -
mongodb搭建校内搜索引擎——内容查询与排序2.0
目标:针对mongodb搭建校内搜索引擎——内容查询与排序1.0进行改进概要:在已经存储好数据的情况下,运用BM25算法对查询的语句和网页的相关度进行相关度的计算。在实践中运用BM25算法,从1.0版本到2.0版本大大提高的查询的速度,普遍提高了1个量级,有些情况下可以优化提速两个量级。优化基于查询相关度计算,使整体运行速度加快。实现过程:版本2.0及思考:在版本1.0的情况下,我的问题出在获得的u原创 2016-02-28 19:44:44 · 1333 阅读 · 0 评论 -
mongodb搭建校内搜索引擎——内容查询与排序1.0
目标:对已经存储好的数据进行查询,比如说我想查询”计科2015年研究生录取名单“,那么我想要的得到一系列的网页链接,其中前几个的网页中必须是得包含我需要的内容。概要:在已经存储好数据的情况下,运用BM25算法对查询的语句和网页的相关度进行相关度的计算。在实践中运用BM25算法,从1.0版本到2.0版本大大提高的查询的速度,普遍提高了1个量级。实现过程:版本1.0及其思考:根据BM25算法,我首先将查原创 2016-02-28 18:29:10 · 595 阅读 · 0 评论