爬虫技术
再观沧海
这个作者很懒,什么都没留下…
展开
-
pymysql.err.InterfaceError: (0, '') 报错原因
使用scrapy爬虫的时候,存数据的时候一直报这个错误,也没有存入数据库。出现的原因是没有连接到数据库,或者数据库在爬虫的过程中断开了。我昨天晚上把爬虫开启后,今天过来发现存数据库的电脑断电关机了,我这里的爬虫还没有断开,一直在就继续,但是报这个错误存不进去数据库。...原创 2018-12-02 13:52:57 · 1744 阅读 · 1 评论 -
破解字体加密,以58同城网站为例。
字体加密是爬取网页的过程中比较麻烦的问题。字体加密一般是网页修改了默认的字符编码集,在网页上加载的他们自己定义的字体文件作为字体的样式,可以正确地显示数字,但是在源码上同样的二进制数由于未加载自定义的字体文件就由计算机默认编码成了乱码。网站url:https://zz.58.com/pinpaigongyu/?utm_source=sem-baidu-pc&spm=1059161467...原创 2018-11-30 16:28:42 · 12381 阅读 · 13 评论