2.认识标签和去标签|下载boost库|建立项目结构-CSDN博客

本文链接：https://blog.csdn.net/CoderZzz6310/article/details/145646283

下载Boost库

Boost C++ Libraries
![[Pasted image 20250209235520.png]]

选择右边的Documentation
![[Pasted image 20250210000332.png]]

选择最新的1.87.0版本
![[Pasted image 20250210000517.png]]

可以在首页的这里下载最新版本

建立项目结构

mkdir boost_searcher

![[Pasted image 20250215082843.png]]

cd boost_searcher

![[Pasted image 20250215083008.png]]

下载rz命令

yum install lrzsz

![[Pasted image 20250215083557.png]]

导入boost文件，获得对应的网页信息

rz

![[Pasted image 20250215084553.png]]

![[Pasted image 20250215084730.png]]

上传完成
5. 解包文件

tar xzf boost_1_87_0.tar.gz

![[Pasted image 20250215084939.png]]

解压完成
6. 可以删除掉压缩包

rm boost_1_87_0.tar.gz

![[Pasted image 20250215085251.png]]

mkdir -p data/input

![[Pasted image 20250215085444.png]]

data目录底下的input放的就是数据源，也就是要进行搜索的8000多个html文档
8. 拷贝boost库当中的doc目录下的html的所有内容到data下的input目录下

cp -rf boost_1_87_0/doc/html/* data/input/

![[Pasted image 20250215090315.png]]

⽬前只需要boost_1_87_0/doc/html⽬录下的html⽂件，⽤它来进⾏建⽴索引

编写数据去标签与数据清洗的模块 Parser

新建一个parser文件，对网页信息进行去标签动作

touch parser.cc

![[Pasted image 20250215090908.png]]

要把原始数据变为去标签之后的数据

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"  
"http://www.w3.org/TR/html4/loose.dtd">  
<html>
<head>  
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">  
<title>Chapter 30. Boost.Process</title>  
<link rel="stylesheet" href="../../doc/src/boostbook.css" type="text/css">  
<meta name="generator" content="DocBook XSL Stylesheets V1.79.1">  
<link rel="home" href="index.html" title="The Boost C++ Libraries BoostBook  
Documentation Subset">  
<link rel="up" href="libraries.html" title="Part I. The Boost C++ Libraries  
(BoostBook Subset)">  
<link rel="prev" href="poly_collection/acknowledgments.html"  
title="Acknowledgments">  
<link rel="next" href="boost_process/concepts.html" title="Concepts">  
</head>  
<body bgcolor="white" text="black" link="#0000FF" vlink="#840084"  
alink="#0000FF">  
<table cellpadding="2" width="100%"><tr>  
<td valign="top"><img alt="Boost C++ Libraries" width="277" height="86"  
src="../../boost.png"></td>  
<td align="center"><a href="../../index.html">Home</a></td>  
<td align="center"><a href="../../libs/libraries.htm">Libraries</a></td>  
<td align="center"><a href="http://www.boost.org/users/people.html">People</a>  
</td>  
<td align="center"><a href="http://www.boost.org/users/faq.html">FAQ</a></td>  
<td align="center"><a href="../../more/index.htm">More</a></td>  
</tr></table>

<>：html的标签，这个标签对我们进行搜索是没有价值的，需要去掉这些标签，一般标签都是成对出现的
2. 在data目录下创建raw_html目录，存放处理完之后的内容