博客搬家了~

最新推荐文章于 2024-08-26 23:11:41 发布

baihao1961

最新推荐文章于 2024-08-26 23:11:41 发布

阅读量218

点赞数

文章标签： php 数据库运维

原文链接：http://www.cnblogs.com/firstForEver/p/8179147.html

版权

原来写在<a href="http://www.cnblogs.com/firstForEver/">博客园的博客</a>，搬家了~ 新博客地址：http://www.hansongda.club/

前几天花了三头二百买了一年的服务器资源，正好前段时间研究研究Laravel框架，就搭建了一个博客系统。

服务|版本
---|---
Linux|CentOS 7.1
nginx|1.8
mysql|5.6
php|7.1
redis|4.0
Laravel|5.4

迁移过程：

一开始很头疼原来的博客文章，怎么导过来...
想主意怎么爬取下来，后来意外惊喜的发现博客园右上角有个备份按钮，马上点击一下试试。荡下来是个XML文件，CDATA部分都是以html存在的文章内容。
 
妥了！解析XML就okay了..
 展现PHP最好的语言了，直接处理xml的函数

```
simplexml_load_file()

```

尴尬的发现这个函数，默认不能解析出来CDATA部分数据...没查手册，马上想到是用正则解析出来这部分数据：

备份下的xml文章内容的格式如下：

```

```

如果用正则匹配CDATA区的数据，需要用到零宽向前/后匹配和非贪婪两个知识点。

```

# 左匹配 <description><![CDATA[
# 右匹配 ]]></description>
# 文章内容利用 [\s\S]*?，问号? 非贪婪模式匹配

preg_match_all('/(?<=<description><\!\[CDATA\[)([\s\S]*?)(?=\]\]><\/description>)/', $xml, $match);

```

正则写完了以后，发现这样子导入还是不如xml一下解析出来来的快.. 
网上查了下simplexml的函数，其实第三个可选参数是可以指定解析CDATA部分的...^_^ 完美

导入的php主要代码如下：

```

// 博客园备份下来的xml
$filename = 'blogbackup.xml';

// 指定第三个可选参数，解析CDATA
$xml = simplexml_load_file($filename, null, LIBXML_NOCDATA);

// $xml对象，解析成数组格式巧妙 encode->decode
$xml = json_decode(json_encode($xml), true);

// 倒转一下：按照原博客的发表顺序，导入到新博客
$content = array_reverse($xml['channel']['item']); 
// 导入
foreach($content as $con){
// 博客发表时间保持不变
// (date('Y-m-d H:i:s', strtotime($con['pubDate'])+8*3600));

// 入库操作...
}

```

导入OK以后，一切看起来都是完美的...直到发现有篇带图片的文章，展示不出来...尴尬
原来图片地址还是博客园存储的地址，人家为了防盗链，当然展示不出来了，http code都是403了。

问题都来了，怎么解决咧?

把这些图片下载到自己的服务器上，图片名称保持不变，然后文章内容里的 img.src 更换下path地址。 
正则又来了，开始匹配这些图片标签：
发现这些图片的共性是，比如：

```
<img src="http://images2015.cnblogs.com/blog/680022/201707/680022-20170714152746556-1823048196.jpg" />

```

匹配表达式：

```
/http:\/\/images201[0-9].cnblogs.com\/blog\/[^>]+\/([^\/]+)\.(jpg|png)/
```

下载这些图片：进到自己服务器的图片目录

```
$filename = 'blogbackup.xml';

$content = file_get_contents($filename);

preg_match_all('/http:\/\/images201[0-9].cnblogs.com\/blog\/[^>]+\/([^\/]+)\.(jpg|png)/', $content, $match);

foreach($match[0] as $img){
shell_exec('curl -O '.$img);
}

```

替换这些图片 img.src的path路径：我这里用了（../images/1/xx）目录

```
# $1匹配出图片名称，保持不变；$2是后缀
$re = preg_replace('/http:\/\/images201[0-9].cnblogs.com\/blog\/[^>]+\/([^\/]+)\.(jpg|png)/', '../images/1/$1.$2', $content);

file_put_contents('blogbackup_new.xml', $re);

```

再利用最新的备份blogbackup_new.xml，导入到自己的博客系统~

Okay, 终于安静了~

转载于:https://www.cnblogs.com/firstForEver/p/8179147.html

baihao1961

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
博客搬家了~

原来写在<a href="http://www.cnblogs.com/firstForEver/">博客园的博客</a>，搬家了~ 新博客地址：http://www.hansongda.club/前几天花了三头二百买了一年的服务器资源，正好前段时间研究研究Laravel框架，就搭建了一个博客系统。 服务|版本---|---Linux|...
复制链接

扫一扫