信息检索大作业-自制搜索引擎复盘

参考:https://blog.csdn.net/chh13502/article/details/112985864
本文为该大佬项目的试错版菜鸡复盘

总框架:
一、准备工作:下载VMWare和Ubuntu,配环境python3+apache+php,在github上按照官方文档下载larbin
二、爬虫:使用larbin,爬出信息,信息在larbin/build/save里
三、爬取信息的转化:写一个python解析器程序,利用beautifulsoup4和pandas库将爬取的信息转换为xunsearch能利用的csv文件
四、生成网页:用xunsearch分析csv文件,生成骨架代码,将骨架代码放在var/www/html中
五、使用搜索引擎:打开浏览器访问php文件
在这里插入图片描述

具体流程+注意事项:
①下载VMWare和Ubuntu
②配环境python3+apache+php(能用什么版本就用什么版本)
php5配置出错怎么办:https://blog.csdn.net/Tdbtx_j/article/details/79464535
解决办法:终端中输入
sudo apt-get install -y language-pack-en-base
sudo LC_ALL=en_US.UTF-8 add-apt-repository ppa:ondrej/php
sudo add-apt-repository ppa:ondrej/php
sudo apt-get update
apt-cache search php5
sudo apt-get install php5.5-common
sudo apt-get install libapache2-mod-php5.5
(最后两条代码中的php5.5根据倒数第三条‘apt-cache search php5’中输出的信息决定!看自己电脑,我的是php5.6 )

③在github上按照官方文档下载larbin,使用larbin,爬出信息
larbin官网:https://github.com/ictxiangxin/larbin#%E8%BF%90%E8%A1%8Clarbin
###编译Larbin
官网下面有详细的larbin使用流程
###配置Larbin
配置文件larbin -cn.conf的内容按官网给的文档改就好
***种子网站开头的https一律改为http,不然会报错
配置文件的路径在~/larbin/build中,如图
请添加图片描述
###运行Larbin
运行larbin一定要在~/larbin/build目录下,如图,30分钟后会显示停止

请添加图片描述

④编写解析器,把数据以csv形式保存(python用库beautifulsoup4和pandas)
爬出来的数据路径为:~/larbin/build/save
在此路径下放入大佬的parser.py,然后在终端运行python3 parser.py就可以把数据放入csv文件了

请添加图片描述

⑤把生成的csv文件放在xunsearch目录下,用xunsearch分析csv文件,生成骨架代码
xunsearch的官方demo,可以体验一下:http://www.xunsearch.com/doc/php/guide/start.demo
各种操作的路径问题:
a.
检查的路径如图
请添加图片描述

b.
请添加图片描述
显然这是配置文件的路径,顺便Xunsearch工具包中配备了配置文件生成工具IniWizzard(http://xunsearch.com/tools/iniconfig)。
c.
建立索引的路径,如图,分析一下第一行倒数第二个词‘search’是你的配置文件名,‘data_1.csv’是你在④中得到的,把它移动到途中路径下
请添加图片描述
d.
生成骨架代码的路径如图
请添加图片描述
***发现以上路径基本是~/xunsearch/sdk/php

⑥将骨架代码放在/var/www/html中
这大概是apache的目录,关于apache的配置文件在虚拟机里是打不开的,如果要修改相关内容,学会在终端使用vim
移动文件和删除文件的终端代码如图请添加图片描述

⑦打开浏览器访问就成功了
apache文件中,定义var/www/html为localhost,所以浏览器访问:
localhost/search/search.php
就进入搜索页面
**如果出错,记得检查apache和php环境配好了没,php没配好会导致页面是一堆代码
请添加图片描述
(还瞎改了一个logo‘新闻迅搜’hhhhhhh)

总结:hxdm慢慢学吧,真令人头秃.jpg

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值