自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Light的博客

我思故我在

  • 博客(21)
  • 收藏
  • 关注

原创 Linux系统换源

Linux系统换源Linux系统换源linux界两大主流RPM和DPKGLinux换源在Ubuntu上更换清华源在Centos上更换163源关于update和upgradelinux界两大主流:RPM和DPKGLinux 开发商先在固定的硬件平台与操作系统平台上面将需要安装或升级的软件编译好, 然后将这个软件的所有相关文件打包成为一个特殊格式的文件,在这个软件文件内还包含了预先侦测系统与

2017-11-30 15:15:18 34566 4

原创 本地显示远程服务器图形界面

解决方案 序号 方案 简单区别 方案一 Xmanager 1.VNC连接时及时突然中断(比如断网),不影响操作进行;2.不需要在服务器上装软件,需要在你的电脑上装相应软件,使用SSH协议;3.正版要钱 方案二 VNC(Virtual Network Computing) 1.本地操作突然中断,服务器端操作也中断;2.在服务器端装vncserver(有很多版本选择),

2017-11-27 19:23:46 17912

原创 SSH+rsync实现服务器的自动备份

备份说明备份目录/boot/etc/home/root/usr/local/var客户端114.212.239.114114.212.236.165服务器114.212.238.1541.建立可以不用密码可以登录的SSH用户参考:鸟哥的Linux私房菜-服务器架设篇

2016-10-25 23:08:37 1219

原创 centos7网络时间服务器的配置与管理

NTP服务器的概念:网络时间协议(英语:Network Time Protocol,NTP)是以分组交换把两台电脑的时钟同步化的网络传输协议。NTP使用UDP端口123作为传输层。它是用作抵销可变延迟的影响。 NTP是仍在使用中的最古老的网络传输协议之一(在1985年前开始)。NTP最初由特拉华大学的Dave Mills 设计,他与一群志愿者仍在维护NTP。 NTP与更简单的DAYTIME(RF

2016-10-17 11:06:01 2102

原创 Elasticsearch安装分词插件IK及问题解决

安装环境准备1.安装 jdk 2.安装Maven依赖关系如下: 因为没有现成的安装包,需要使用Maven对Github上的源码进行编译。所以安装的Jdk版本取决于你的Maven版本。至于Maven版本的选择就选择最新的。以下是我安装的版本: 具体安装步骤就自行搜索!安装IK参考的是github上的README.md。在安装时候看了网上很多教程,发现出现问题了,然后去github上看。因为R

2016-10-16 23:11:46 13104 3

原创 windows下使用pip安装python模块lxml

尝试了很多方法,在Windows下安装lxml果然没有在linux下来的方便。不过最后还是找到了解决办法。 直接使用:pip install lxml会有如下问题: 结果一路解决下去,解决了一个坑还是有一个坑,遂放弃,查找有没有别的解决办法。 亲测使用wheel+pip可以成功安装lxml!wheel本质上是一个 zip 包格式,它使用 .whl 扩展名,用于 pytho

2016-10-06 17:06:22 3470 2

原创 垂直搜索引擎框架(更新中)

自己用思维导图做的垂直搜索引擎框架,目前知道的要点仅限于此,会不断更新!

2016-10-02 09:53:35 689

原创 单播、多播(主播)、广播简介

单播简介单播(unicast)是指封包在计算机网络的传输中,目的地址为单一目标的一种传输方式。每次只有两个实体相互通信,发送端和接收端都是唯一确定的。它是现今网络应用最为广泛,通常所使用的网络协议或服务大多采用单播传输,例如一切基于TCP的协议。单播地址在IPv4网络中,0.0.0.0到223.255.255.255属于单播地址。单播优点服务器及时响应客户机的请求 服务器针对每个客户不通的请求发

2016-09-27 22:16:39 14007 1

翻译 随机性偏差模型(DFR)介绍

前言第一次翻译文章,可能多多错误,但是希望可以对原文阅读起到帮助。随机性偏差模型 (DFR) 是信息检索的最早模型之一,哈特的 2-泊松索引-模型 [1] 的最早模式之一。2-泊松模型基于在一系列的具有价值的文档所提供的词语,这些词语在相关文档中发生的概率比在不相关文档中发生的概率更高。 另一方面,有一些词语不包含于关键的文档,所以他们的频率遵循随机分布,是单一的泊松模型。哈特的模型中,首先作为检

2016-09-26 08:46:04 5761

原创 python处理数据——去除字符串两端的引号

在用python处理数据,会出现获得的数据本身两端带有引号,而我们需要的是形如xxx,而不是“xxx”否则就会出现问题。比如: 『解决方法一:』 使用lstrip()和rsrtip()字符串函数函数说明如下: 具体使用如下: 『解决方法二』 先把字符转换为列表,使用列表的remove函数,再把列表拼成字符串函数说明如下: 但是remove(x)每次只能只能移除x在列表中出现的第一

2016-09-16 16:42:21 77441 1

原创 XAMPP+SCWS安装

由于高版本的XAMPP对SCWS可能支持有问题,因为高版本的XAMPP 集成了高版本的php,对一些函数放弃了支持,所以选择了低版本的XAMPP,安装的时候选择了XAMPP1.8.3-5,并且是足够用了。本机的系统是Centos7,亲测可行。『安装XAMPP1.8.3-5』升级系统,然后清理已有的环境以免出现安装冲突。 第一步:yum updateyum remove httpd*第二步 下载

2016-09-14 16:22:40 589

原创 Centos7下elasticsearch管理工具Marvel安装

我安装的elasticsearchb版本是2.3.3,这时候看到Marvel插件这个东西不错,何不上官网查手册安装哉! 准备工作: 你得安装好以下的插件:Java 7 or laterElasticsearch 2.3.3Kibana 4.5.1Elasticsearch License 2.3.3 plugin这里Kibana是elastic的一个平台,具体介绍如下: Kibana

2016-05-24 18:26:33 3809

转载 查看Linux的硬件配置

1.查看机器所有硬件信息:dmidecode |moredmesg |more这2个命令出来的信息都非常多,所以建议后面使用”|more”便于查看2.查看CPU信息方法一: Linux下CPU相关的参数保存在 /proc/cpuinfo 文件里 cat /proc/cpuinfo |more 方法二: 采用命令 dmesg | grep CPU 可以查看到相关CPU的

2016-05-07 22:36:16 300

转载 成为FSD(全栈工程师)

转载自:从知乎上看到“全栈开发者”讨论之后的自黑窃以为 full stack 不是那么简单的事情。当然,不同的地方可能有不同的标准,且听我慢慢道来。既然大家都在以 Web 为例,那我也说 Web 好了。不过事实上 full stack 也有可能是其他方面的。租个 VPS ,从装系统配环境开始,然后拿个 PHP/Python/Ruby/Node.js 什么的写个后端(少不了用一些框架吧, 后端框架多如

2016-04-12 13:04:50 1143

转载 完全用Python工作---Harness the power of Python

完全用Python工作—Harness the power of Python作者: 石雨浓引自:完全用Python工作 第一天, 太初有道, 神谕, import light, 于是便有光. (Quick fact: 在python解释器里输入import antigravity有彩蛋)作为一个业余物理工作者以及入门计算机使用者, 选择一门称手的编程语言是非常重要的事. 从计算能带, 处理数据

2016-04-12 12:48:37 1165

原创 centos下mongodb3.2数据库的备份与恢复初步

数据库的备份 mongodump -h dbhost -d dbname -o dbdirectory-h MongDB所在服务器地址,在本地操作时服务器默认地址是127.0.0.1。 -d 需要备份的数据库实例。-o 备份的数据存放位置,在该位置下会成与你实例为名的文件夹,在文件夹下有collection 的bson和json文件。 完成后可以输入mongodump查看 数据库的恢复

2016-04-01 11:43:37 2300

原创 mongodb搭建校内搜索引擎——内容查询与排序2.0

目标:针对mongodb搭建校内搜索引擎——内容查询与排序1.0进行改进概要:在已经存储好数据的情况下,运用BM25算法对查询的语句和网页的相关度进行相关度的计算。在实践中运用BM25算法,从1.0版本到2.0版本大大提高的查询的速度,普遍提高了1个量级,有些情况下可以优化提速两个量级。优化基于查询相关度计算,使整体运行速度加快。实现过程:版本2.0及思考:在版本1.0的情况下,我的问题出在获得的u

2016-02-28 19:44:44 1347

原创 mongodb搭建校内搜索引擎——内容查询与排序1.0

目标:对已经存储好的数据进行查询,比如说我想查询”计科2015年研究生录取名单“,那么我想要的得到一系列的网页链接,其中前几个的网页中必须是得包含我需要的内容。概要:在已经存储好数据的情况下,运用BM25算法对查询的语句和网页的相关度进行相关度的计算。在实践中运用BM25算法,从1.0版本到2.0版本大大提高的查询的速度,普遍提高了1个量级。实现过程:版本1.0及其思考:根据BM25算法,我首先将查

2016-02-28 18:29:10 610

原创 BM25算法详解

BM25算法通过加入文档权值和查询权值,拓展了二元独立模型的得分函数。这种拓展是基于概率论和实验验证的,并不是一个正式的模型。BM25模型在二元独立模型的基础上,考虑了单词在查询中的权值以及单词在文档中的权值,拟合综合上述考虑的公式,并通过实验引入经验参数。 公式如下:

2016-02-17 20:21:48 32561 1

原创 mongodb搭建校内搜索引擎——网页文本的规范化

目标: 在已经获得网页内容的前提下,除去自己不想要的内容,并且转化为 json格式的文本,导入到mongodb数据库中。概要: 在上一次基础上(详见mongodb搭建校内搜索引擎——爬取网页文本)利用BeautifulSoup继续处理文本,过滤自己不感兴趣的标签中的文本,并用jieba分词模块,将文本分割成关键词,同时获得关键词在这个网页文档中的权重,最后用Python序列化,将

2016-02-11 13:01:20 702

原创 mongodb搭建校内搜索引擎——爬取网页文本

**读取excle文档中存储的url列表,爬取列表中网页的文本内容概要: 在已经在获得爬虫获取的url列表的工作基础上,进行网页内容的获取。编程用到request(获取网页源码),BeautifulSoup(解析html,并且获取网页纯文本),lxml(解析html,在使用BeautifulSoup要预先安装),Xlrd(读取excle中内容)我的思考: 一开始想用正则表达式来判

2016-02-04 19:41:24 1074

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除