python爬虫之pymysql库的使用(1)

首先自己的电脑上或服务器上要有MySQL数据库,可以是各种产品软件。

另外自己要会数据库的基本操作,创建数据库、创建表、添加数据、修改数据、删除数据、查询数据等,可以用SQL语句去操作,也可以用图形化界面去操作,不过SQL语句还是要掌握的,比较重要。


在进行网络数据采集时,处理Unicode字符串是很痛苦的事情。默认情况下,MySQL也不支持Unicode字符处理。不过你可以设置这个功能(这么做会增加数据库的占用空间)。但是为了处理,只能一开始就让数据库支持Unicode:

# 这四行语句改变的内容有:数据库、数据表,以及两个字段的默认编码都从utf8mb4
# (严格说来也属于Unicode,但是对大多数Unicode字符的支持都非常不好)转变成了
# utf8mb4_unicode_ci(支持中文)。
# ALTER DATABASE scraping CHARACTER SET= utf8mb4 COLLATE= utf8mb4_unicode_ci;
# ALTER TABLE pages CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
# ALTER TABLE pages CHANGE title title VARCHAR(200) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
# ALTER TABLE pages CHANGE content content VARCHAR(10000) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;

可以用SQL语句插入一些汉语字符到某些字段中,如果不出错,就表示转换成功了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值