爬虫学习笔记四、 python爬虫实战，爬取图书馆资料，存储到mysql数据库

本文链接：https://blog.csdn.net/LCYong_/article/details/53264519

1、设置url

进入图书馆书目检索系统，分析它的url，可以很容易找到规律就是它的后缀no=0000+五位的图书编码，例如：http://ip:8080/opac/item.php?marc_no=0000560645

利用规律我们就可以这样来遍历url，代码如下：

def geturl(start):  
    #start为开始的图书编码  
    url='http://XX.XX.xx.xx:8080/opac/item.php?marc_no=0000'  
    for i in range(start,600000):  
        a="%06d"%i  
        url1=url+str(a)

2、分析页面源码，筛选需要获取的数据，编写正则表达式（以书名为例）

打开页面源码，找到题名所在的位置，如下：

<dt>题名/责任者:</dt>
<dt>题名/责任者:</dt>
<dd><a href="openlink.php?title=Python%E5%92%8CHDF5%E5%A4%A7%E6%95%B0%E6%8D%AE%E5%BA%94%E7%94%A8">Python和HDF5大数据应用</a>/(美) Andrew Collette著 胡世杰译</dd>

通过页面分析到，unicode乱码的部分Python和HDF5大数据应用
为我们需要的书名

爬取书名的代码如下：

def getdb(url,i):  
    html=urllib.request.urlopen(url).read().decode('utf-8')  
    try:  
        #书名  
        name = re.compile('<dd><a href&#