CSpider
c语言实现的易用的高效的网络爬虫框架:)。
安装与使用方法:
确认你的电脑中,已经安装下面的库:
curl
libuv
libxml2
pcre
liburi
进入core文件夹,编译文件,命令如下:
make
接着要配置动态库,将.so文件和.h文件移动到相应的位置,命令如下:
make install
这时,就可以开始编译你写好的文件(例如 test.c),命令如下:
gcc -o test test.c -lcspider -I /usr/include/libxml2
其中,-lcspider将链接我们上述编译完成的cspider动态链接库,而-I /usr/include/libxml2则是让编译器能够找到libxml2库的头文件,当然你最好使用Makefile文件。
API
初始化设置
cspider_t *init_cspider()
在程序一开始的时候,获取到cspider_t变量。是必不可少的函数。
void cs_setopt_url(cspider_t , char )
为cspider_t设置程序启动时要抓取的url,在第二个参数传入url字符串即可,url字符串可以不用包含http://或htpps://。可以多次调用,即可插入多个url任务。
void cs_setopt_cookie(cspider_t , char )
第二个参数设置cookie,格式为var1=abc; var2=qwe。可选项。
void cs_setopt_usera