之前使用过PHP的Simple HTML DOM简单地解析HTML但PHP终非我所熟悉的语言,虽然我并不对语言抱有绝对的执着= =(什么你不相信,好吧,不管你信不信,反正我是信了= =)。虽然可以简单地使用正则表达式来解析HTML但我不是希望能够找到一个合适的HTML解析库,网上搜索了下关于c语言解析HTML的库,好像不是挻多的样子,我搜索到了google的gumbo,
gumbo是开源的,可以从这里得到它
https://github.com/google/gumbo-parser
我们需要下载回来手动编译安装,这里以linux debian为例
git clone https://github.com/google/gumbo-parser
cd gumbo-parser
./autogen.sh
./configure
这些一般都会非常顺利,没什么好说的,接下来就是
make
我要执行make后发现有一个错误导致无法编译通过,不知道各位是什么情况,给出的错误提示是benchmarks/benchmark.cc
文件中使用了未定义的函数clock_gettime
man了一下,该函数需要包含time.h头文件,打开benchmark.cc文件查看的确已经包含了time.h头文件,很苦恼,突然一下子就懵了,不过还好我反应还算快,看到manpages中写到
Link with-lrt (only for glibc versions before 2.17).
于是猜测没有链接库,使用vim打开Makefile文件,