上篇博客只是爬取了网页上的数据并打印出来,但是在实际开发应用中,数据是要持久保存起来的,数据可以保存到关系型数据库如:mysql中或NoSQL数据库中如:mongodb
这篇博客是把数据保存到mysql数据库中
采用的模块是pymysql,[使用方法]http://www.runoob.com/python3/python3-mysql.html
本程序的数据代码段:
# 保存音乐信息到数据库中
def savaMusicToDB(m_id,m_name,m_link,m_type,m_singer,m_album,m_click,m_collect):
print 'savaMusicToDB start'
DBConnection=getDBConnection()
print 'dbconnection='+str(DBConnection)
#创建游标
cursor=DBConnection.cursor()
sql='insert into orgmusic(m_id,m_name,m_link,m_type,m_singer,m_album,m_click,m_collect) values(%s,%s,%s,%s,%s,%s,%s,%s)'
cursor.execute(sql,(m_id,m_name,m_link,m_type,m_singer,m_album,m_click,m_collect))
DBConnection.commit()
closeDBConnection(DBConnection,cursor)
#建立数据库连接
def getDBConnection():
print 'getDBConnection start'
host = '182.254.220.188'
port = 3306
user = 'root'
password = 'ldy123456'
db = 'music'
charset = 'utf8'
# 建立数据库链接
DBConnection=pymysql.connect(host=host,port=port,user=user,passwd=password,db=db,charset=charset)
return DBConnection
#关闭数据库连接
def closeDBConnection(DBConnection):
DBConnection.close()
#关闭数据库连接和游标
def closeDBConnection(DBConnection,cursor):
cursor.close()
DBConnection.close()
本爬虫完整代码:
#coding=utf-8 #设置编码
#获取百度音乐
import urllib2
from bs4 import BeautifulSoup
import pymysql
import datetime
import random
#百度音乐的根路径url
baiduMusicRootURL='http://music.baidu.com'
#百度音乐分类的基本的根路径url
baiduMusicTagURL='http://music.baidu.com/tag'
#获取音乐的分类标签
def getMusicTags