2.认识标签和去标签|下载boost库|建立项目结构

下载Boost库

Boost C++ Libraries
![[Pasted image 20250209235520.png]]

选择右边的Documentation
![[Pasted image 20250210000332.png]]

选择最新的1.87.0版本
![[Pasted image 20250210000517.png]]

可以在首页的这里下载最新版本

建立项目结构
  1. 新建目录boost_searcher
mkdir boost_searcher

![[Pasted image 20250215082843.png]]

  1. 移动到boost_searcher目录
cd boost_searcher

![[Pasted image 20250215083008.png]]

  1. 下载rz命令
yum install lrzsz

![[Pasted image 20250215083557.png]]

  1. 导入boost文件,获得对应的网页信息
rz

![[Pasted image 20250215084553.png]]

![[Pasted image 20250215084730.png]]

上传完成
5. 解包文件

tar xzf boost_1_87_0.tar.gz

![[Pasted image 20250215084939.png]]

解压完成
6. 可以删除掉压缩包

rm boost_1_87_0.tar.gz

![[Pasted image 20250215085251.png]]

  1. 创建data目录和底下的input目录
mkdir -p data/input

![[Pasted image 20250215085444.png]]

data目录底下的input放的就是数据源,也就是要进行搜索的8000多个html文档
8. 拷贝boost库当中的doc目录下的html的所有内容到data下的input目录下

cp -rf boost_1_87_0/doc/html/* data/input/

![[Pasted image 20250215090315.png]]

⽬前只需要boost_1_87_0/doc/html⽬录下的html⽂件,⽤它来进⾏建⽴索引

编写数据去标签与数据清洗的模块 Parser
  1. 新建一个parser文件,对网页信息进行去标签动作
touch parser.cc

![[Pasted image 20250215090908.png]]

要把原始数据变为去标签之后的数据

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"  
"http://www.w3.org/TR/html4/loose.dtd">  
<html>
<head>  
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">  
<title>Chapter 30. Boost.Process</title>  
<link rel="stylesheet" href="../../doc/src/boostbook.css" type="text/css">  
<meta name="generator" content="DocBook XSL Stylesheets V1.79.1">  
<link rel="home" href="index.html" title="The Boost C++ Libraries BoostBook  
Documentation Subset">  
<link rel="up" href="libraries.html" title="Part I. The Boost C++ Libraries  
(BoostBook Subset)">  
<link rel="prev" href="poly_collection/acknowledgments.html"  
title="Acknowledgments">  
<link rel="next" href="boost_process/concepts.html" title="Concepts">  
</head>  
<body bgcolor="white" text="black" link="#0000FF" vlink="#840084"  
alink="#0000FF">  
<table cellpadding="2" width="100%"><tr>  
<td valign="top"><img alt="Boost C++ Libraries" width="277" height="86"  
src="../../boost.png"></td>  
<td align="center"><a href="../../index.html">Home</a></td>  
<td align="center"><a href="../../libs/libraries.htm">Libraries</a></td>  
<td align="center"><a href="http://www.boost.org/users/people.html">People</a>  
</td>  
<td align="center"><a href="http://www.boost.org/users/faq.html">FAQ</a></td>  
<td align="center"><a href="../../more/index.htm">More</a></td>  
</tr></table>

<>:html的标签,这个标签对我们进行搜索是没有价值的,需要去掉这些标签,一般标签都是成对出现的
2. 在data目录下创建raw_html目录,存放处理完之后的内容

mkdir raw_html

![[Pasted image 20250215091707.png]]

把每个⽂档都去标签,然后写⼊到同⼀个⽂件中
每个⽂档内容不需要任何\n
⽂档和⽂档之间⽤ \3 区分

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值