本周重点还是在做爬虫的任务,在程序中添加多线程并把可用域名放入数据库中,悲剧是两个想法都没实现。
首先是多线程简直是死穴,电脑跑崩了好几次但是还是找不出问题在哪里,还要在调试【这部分代码并没有更新到github】
关于MySQL,连接上了数据库但是插入数据的代码有问题,格式、内容并不全对【感觉是电脑的问题,因为复制了网上的代码运行,结果还是不对】,MySQL和SQL的常用语法大部分差不多,用起来挺顺手的【运行结果略残】
在爬网页的时候发现一个问题,网页内容的中文都是乱码,虽然写了【#coding:utf-8】还试了【#-*-coding:utf-8-*-】但是都没用【原因不详】,暂时用decode(‘gbk’)可以解决问题。
P.S. 安利一个分析网页好帮手【火狐浏览器的】HttpFox插件,可以随意查看目标部分源码,比如提交表单时的方法、表单内容、目标网页之类的,或者查看按钮的属性等等,比直接网页上找源码方便很多。