这篇文章主要介绍了python爬取本站电子书信息并入库的实现代码,需要的朋友可以参考下
入门级爬虫:只抓取书籍名称,信息及下载地址并存储到数据库
数据库工具类:DBUtil.py
import pymysql
class DBUtils(object):
def connDB(self): #连接数据库
conn=pymysql.connect(host='192.168.251.114',port=3306, user='root',passwd='b6f3g2',db='yangsj',charset='utf8');
cur=conn.cursor();
return (conn,cur);
def exeUpdate(self,conn,cur,sql): #更新或插入操作
sta=cur.execute(sql);
conn.commit();
return (sta);
def exeDelete(self,conn,cur,IDs): #删除操作 demo 没用到
sta=0;
for eachID in IDs.split(' '):
sta+=cur.execute("delete from students where Id=%d"%(int(eachID)));
conn.commit();
return (sta);
def exeQuery(self,cur,sql): #查找操作
effect_row = cur.execute(sql);
return (effect_row,cur);
def connClose(self,conn,cur): #关闭连接,释放资源
cur.close();
conn.close();
if __name__ == '__main__':
dbUtil = DBUtils();
conn,cur = dbUtil.connDB();
书籍操作文件 bookOpe.py
from DBUtil import DBUtils
from bookInfo import Book
from bookInfo import DownLoadInfo
import logging
logging.basicConfig(
level=logging.INFO
)
class BookOperator(object):
def __addBook(self,book):
logging.info("add book:%s" % book.bookName);
dbUtil = DBUtils();
conn,cur = dbUtil.connDB();
insertBookSql = ("insert into book (bookName,bookUrl,bookInfo) values ('%s','%s','%s');"%(book.bookName,book.downLoadUrl,book.mainInfo));
dbUtil.exeUpdate(conn,cur,insertBookSql);
dbUtil.connClose(conn,cur);
def __selectLastBookId(self):
logging.info("selectLastBookId ");
dbUtil = DBUtils();
conn,cur = dbUtil.connDB();
selectLastBookSql = "select id from book order by id desc limit

本文介绍了一个使用Python编写的爬虫,用于抓取网站上的电子书信息,包括书籍名称、详情和下载链接,并将这些数据存储到数据库中。涉及的文件包括DBUtil.py(数据库工具类)、bookOpe.py(书籍操作)、bookInfo.py(书籍信息)、FiveOneJobFetch.py(网页解析)和51Job.py(执行文件)。同时,文章提到了两个数据库表:书籍信息表和下载地址表。作者还推荐了一个Python学习资源平台,提供学习资料和实时的技术分享。
最低0.47元/天 解锁文章
191

被折叠的 条评论
为什么被折叠?



