自己动手编写CSDN博客备份工具-blogspider之源码分析(1)

最新推荐文章于 2021-09-22 20:24:16 发布

iteye_18630

最新推荐文章于 2021-09-22 20:24:16 发布

阅读量174

点赞数

文章标签：数据结构与算法爬虫 java

作者：gzshun. 原创作品，转载请标明出处！
来源：http://blog.csdn.net/gzshun

前一篇博文《 自己动手编写CSDN博客备份工具-blogspider》介绍了blogspider的使用，使用方法很简单，blogspider可以将自己的CSDN博客下载到本地，这里也只提供最基本的功能。这两天有很多哥们儿给我发邮件，想要blogspider的源码，该程序是开源的，有需要的可以留下联系方式。
今天就介绍下blogspider的源代码，其实这里面比较核心的东西就是如何向网站服务器申请我们需要的网页文件。在Java语言，有提供一些网络包，已经将HTTP协议的东西都集成在了包里面，那实现起来就比较简单。最近由于春运期间，大家都在12306网站购票，于是网上就出现了一款抢票的软件，那是用Java写的，是一个谷歌插件。其实那个软件是我一个同事以前的同事写出来的，我们都从这里受益，也买到了回家过年的票，在这里感谢那位牛人。
向Java程序员了解了一下，那个软件的实现原理很简单，步骤如下：
1.访问网站获取网站信息
2.接受到网站服务器的响应消息
3.根据用户选择(硬座，硬卧)的消息再提交到网站服务器
4.得到网站的结果
主要是2个操作： 一个是GET方法，一个是POST方法。
GET方法：从网站服务器下载网页消息，比如网页浏览器可以浏览CSDN网站的新闻与图片，这些都是从网站服务器GET下载到本地；
POST方法：从本地将资料提交到网站服务器，比如在CSDN博客写完文章要点击发表博客，这时候是将一篇文章的所有信息给POST到CSDN服务器。
blogspider的主要目的，就是下载功能，这里使用的是GET方法，用C语言写的都比较低级，这些最基本的都需要自己来实现，等有空看看面向对象编程语言的实现。

废话少说，源码说话：

一.贴出代码中的调试宏，汗，太儿戏了

/*Debug program macro*/ #if 0 #define SPIDER_DEBUG #endif

二.贴出代码中的一些宏定义，这些涉及到HTML文件的语法，但本代码不需要会html，只需要最基本的字符串处理：

#define BUFSIZE 1024 #define HTML_ARTICLE ("<span class=\"link_title\">") #define HTML_MULPAGE ("class=\"pagelist\"") #define BLOG_NEXT_LIST ("article/list") #define BLOG_TITLE ("title=\"") #define BLOG_HREF ("<a href=\"") #define BLOG_DATE ("<span class=\"link_postdate\">") #define BLOG_READ ("<span class=\"link_view\"") #define BLOG_COMMENT ("<span class=\"link_comments\"") #define BLOG_SPAN_HEAD ("<span>") #define BLOG_SPAN_END ("</span>") #define BLOG_RANK ("blog_rank") #define BLOG_LI ("<li>") #define BLOG_INDEX ("index.html") #define CSDN_BLOG_URL ("http://blog.csdn.net") #define CSDN_BLOG_HOST ("blog.csdn.net") #define CSDN_BLOG_PORT (80) #define BLOG_LOCK (10) #define BLOG_UNLOCK (11) #define BLOG_DOWNLOAD (20) #define BLOG_UNDOWNLOAD (21)
上面的BLOG_LOCK,BLOG_UNLOCK是爬虫链表的处理锁，这是扩展预留的，现在还没用。本来要用多线程来处理链表，但经过测试，会产生竞争，导致connect超时，这等过完年再试试。

三.这里再给出爬虫链表的结构体与博客存放基本信息的结构体，里面有多一些变量，但没真正的使用，有些只是预留而已：

typedef struct tag_blog_info { char *b_url; /*网址*/ char *b_host; /*网站服务器主机名*/ char *b_page_file; /*页面文件名称*/ char *b_local_file; /*本地保存的文件名称*/ char *b_title; /*博客主题*/ char *b_date; /*博客发表日期*/ int b_port; /*网址端口号*/ int b_sockfd; /*网络套接字*/ int b_reads; /*阅读次数*/ int b_comments; /*评论次数*/ int b_download; /*下载状态*/ int b_lock; /*处理锁*/ int b_seq_num; /*序号*/ }blog_info; typedef struct tag_blog_spider { blog_info *blog; struct tag_blog_spider *next; }blog_spider; typedef struct tag_blog_rank { int b_page_total; /*博客总页数*/ char *b_title; /*博客标题*/ char *b_page_view; /*博客访问量*/ char *b_integral; /*博客积分*/ char *b_ranking; /*博客排名*/ char *b_original; /*博客原创文章数量*/ char *b_reship; /*博客转载文章数量*/ char *b_translation; /*博客译文文章数量*/ char *b_comments; /*博客评论数量*/ }blog_rank;
四.在一个程序中，使用全局变量不是最好的方法，但都有优缺点：

使用全局变量：
1.优点：操作简单，不用提供太多的函数形参；
2.缺点：不好维护，代码可读性差；所以该程序只使用了3个全局变量。

/*global variable*/ static int g_seq_num = 0; static char csdn_id[255]; static struct hostent *web_host;
web_host变量用来保存"blog.csdn.net"主机信息，在初始化socket的使用会使用到里面的IP地址, web_host->h_addr_list[0];

五.程序中定义了很多函数，如下：

static char *strrstr(const char *s1, const char *s2);//从s1字符串中查找s2字符串,返回最后一次出现的地址 static char *strfchr(char *s);//过滤掉s字符串中不规则的字符 static int init_spider(blog_spider **spider);//初始化博客爬虫节点,必须使用指针的指针,否则达不到预期效果 static int init_rank(blog_rank **rank);//初始化博客存放基本信息的结构体 static void insert_spider(blog_spider *spider_head, blog_spider *spider);//将博客插入爬虫链表 static int spider_size(blog_spider *spider_head);//计算爬虫链表的长度 static void print_spider(blog_spider *spider_head);//打印爬虫链表,保存到当前目录的*.log文件 static void print_rank(blog_rank *rank);//打印博客基本信息 static void free_spider(blog_spider *spider_head);//释放爬虫链表的空间 static void free_rank(blog_rank *rank);//释放博客基本信息的空间 static int get_blog_info(blog_spider *spider_head, blog_rank *rank);//从博客主页获取博客标题,博客文章的总页数,积分,排名等信息 static int analyse_index(blog_spider *spider_head);分析每一页博客的信息,并添加进爬虫链表 static int download_index(blog_spider *spider_head);//下载博客主页 static int download_blog(blog_spider *spider);//下载每一篇博客 static int get_web_host(const char *hostname);//得到"blog.csdn.net"网站的主机信息 static int connect_web(const blog_spider *spider);//初始化socket,并连接网站服务器 static int send_request(const blog_spider * spider);//给网站服务器发送请求 static int recv_response(const blog_spider * spider);//接受网站服务器的响应消息
六.先给出上述2个字符串处理函数,这家伙,有点罗嗦

/************************************************************** strrstr : 查找指定字符串, 返回最后一次出现的地址, 自己实现 ***************************************************************/ static char *strrstr(const char *s1, const char *s2) { int len2; char *ps1; if (!(len2 = strlen(s2))) { return (char *)s1; } ps1 = (char *)s1 + strlen(s1) - 1; ps1 = ps1 - len2 + 1; while (ps1 >= s1) { if ((*ps1 == *s2) && (strncmp(ps1, s2, len2) == 0)) { return (char *)ps1; } ps1--; } return NULL; } /********************************************************* strfchr : 查找指定字符串中不规则的字符, 并赋空若没有删除这些不规则的字符,则创建文件的时候将会出错 *********************************************************/ static char *strfchr(char *s) { char *p = s; while (*p) { if (('/' == *p) || ('?' == *p)) { *p = 0; strcat(s, "xxx"); return p; } p++; } return NULL; }
引用星爷的一句话："功夫其实绝对是适合男女老幼的，打打杀杀只是大家对它的误解。功夫更加是一种艺术，一种不屈的精神。所以，一直以来我都在找方法想将功夫重新包装起来，使得你们这些升斗小民对功夫能够有更深一层的了解。".
轻松一下,继续:

七.初始化爬虫链表,我把很多处理都给独立到函数了,这样可以增加程序的可读性,不能将所有功能都在main函数实现.

/********************************************************* 初始化博客爬虫的链表节点, 申请空间并赋空值 *********************************************************/ static int init_spider(blog_spider * * spider) { *spider = (blog_spider *)malloc(sizeof(blog_spider)); if (NULL == *spider) { #ifdef SPIDER_DEBUG fprintf(stderr, "malloc: %s\n", strerror(errno)); #endif return -1; } (*spider)->blog = (blog_info *)malloc(sizeof(blog_info)); if (NULL == (*spider)->blog) { #ifdef SPIDER_DEBUG fprintf(stderr, "malloc: %s\n", strerror(errno)); #endif free(*spider); return -1; } (*spider)->blog->b_url = NULL; (*spider)->blog->b_host = strdup(CSDN_BLOG_HOST); (*spider)->blog->b_page_file = NULL; (*spider)->blog->b_local_file = NULL; (*spider)->blog->b_title = NULL; (*spider)->blog->b_date = NULL; (*spider)->blog->b_port = CSDN_BLOG_PORT; (*spider)->blog->b_sockfd = 0; (*spider)->blog->b_reads = 0; (*spider)->blog->b_comments = 0; (*spider)->blog->b_download = BLOG_UNDOWNLOAD; (*spider)->blog->b_lock = BLOG_UNLOCK; (*spider)->blog->b_seq_num = 0; (*spider)->next = NULL; return 0; } /********************************************************* 初始化博客基本信息结构体,包含以下几个变量: 1.博客页面总页数 2.博客标题 3.博客访问量 4.博客积分 5.博客排名 6.博客原创文章数量 7.博客转载文章数量 8.博客译文文章数量 9.博客评论数量 *********************************************************/ static int init_rank(blog_rank **rank) { *rank = (blog_rank *)malloc(sizeof(blog_rank)); if (NULL == *rank) { #ifdef SPIDER_DEBUG fprintf(stderr, "malloc: %s\n", strerror(errno)); #endif return -1; } (*rank)->b_page_total = 0; (*rank)->b_title = NULL; (*rank)->b_page_view = NULL; (*rank)->b_integral = NULL; (*rank)->b_ranking = NULL; (*rank)->b_original = NULL; (*rank)->b_reship = NULL; (*rank)->b_translation = NULL; (*rank)->b_comments = NULL; return 0; }
八.爬虫链表的一些处理,这些都比较简单,就都贴出来吧

/********************************************************* 将博客爬虫节点插入爬虫链表 *********************************************************/ static void insert_spider(blog_spider * spider_head, blog_spider * spider) { blog_spider *pspider; pspider = spider_head; while (pspider->next) { pspider = pspider->next; } pspider->next = spider; } /********************************************************* 返回爬虫链表长度 *********************************************************/ static int spider_size(blog_spider * spider_head) { int count = 0; blog_spider *pspider; pspider = spider_head; while (pspider->next) { pspider = pspider->next; count++; } return count; }
篇幅有点长,待下篇文章...

周星驰:你来这里干什么？
赵薇:我想帮你们比赛。
周星驰:你怎么帮？你快点回火星吧，地球是很危险的。

iteye_18630

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
自己动手编写CSDN博客备份工具-blogspider之源码分析(1)

作者：gzshun. 原创作品，转载请标明出处！来源：http://blog.csdn.net/gzshun前一篇博文《自己动手编写CSDN博客备份工具-blogspider》介绍了blogspider的使用，使用方法很简单，blogspider可以将自己的CSDN博客下载到本地，这里也只提供最基本的功能。这两天有很多哥们儿给我发邮件，想要blogspider的源码，该程序是开源的，有需要...
复制链接

扫一扫