文化不分边界
人,为什么要读书?举个例子:
当看到天边飞鸟,你会说:“落霞与孤鹜齐飞,秋水共长天一色。”而不是:“卧靠,好多鸟。”;
当你失恋时你低吟浅唱道:“人生若只如初见,何事秋风悲画扇。”而不是千万遍地悲喊:“蓝瘦,香菇!”
别人看车关注牌子,我看车关注宽敞不,睡着舒服不?可不管怎样不能在人前丢份啊,所以我决定学习学习车标!首先我们爬取车标及其相关信息,然后通过Flask来做一个车标学习网站。
先来看看实现效果:
车标网数据爬虫
在网上找了半天车标的数据,最后看到了这个网站:
车标网 http://www.chebiaow.com/logo。
网站将车系按照字母从A-Z进行了排序,然后点击每个车标进入详细信息,那 Audi做例子:
有用的数据是哪些? 品牌名称、车标图片、成立时间、主要车型、官网。
那么让我们开始通过爬虫,获取车标网下所有的汽车品牌及车标,最终入库保存吧,开始!
数据库操作指南
针对简单的数据,我习惯用python自带的sqlite3进行数据库的存储,简单方便….那么如何管理我们的数据库呢?推荐使用DBUtils!
安装:pip install DBUtils
DBUtils is a suite of tools providing solid, persistent and pooled connections to a database that can be used in all kinds of multi-threaded environments like Webware for Python or other web application servers. The suite supports DB-API 2 compliant database interfaces and the classic PyGreSQL interface.
简而言之,DBUtils是一套为数据库提供可靠,持久和池式连接的工具,可用于各种多线程环境。我们一般使用DBUtils.PooledDB来创建一批连接池进行并发处理。常用参数如下:
参数 | 说明 |
---|---|
creator | 使用链接数据库的模块(sqllite3、pymysql…) |
maxconnections | 连接池允许的最大连接数,0和None表示不限制连接数 |
mincached | 初始化时,链接池中至少创建的空闲的链接,0表示不创建 |
maxcached | 链接池中最多闲置的链接,0和None不限制 |
blocking | 连接池中如果没有可用连接后,是否阻塞等待。True,等待;False,不等待然后报错 |
maxusage | 一个链接最多被重复使用的次数,None表示无限制 |
host | ip |
user | 用户名 |
password | 密码 |
database | 数据库名 |
charset | 字符集(Mysql用的比较多,SQLit |