爬虫入门总结
by 婉约在风里
核心:urllib模块中的request
方法,urlopen(打开链接),Request(模仿请求),在爬取网页之后记得.read()进行内容读取,后面也有header,报头模拟,解决403问题,利用正则表达式和compile().findall()方法进行制定内容获取。
异常处理,尽量利用try函数对爬虫部分进行封装,这样遇到异常,爬虫不会崩掉,其次,设置好except,将报错信息返回给用户,结合文件操作,可以利用urlretrieve函数对网页获取内容进行下载,其中涉及到的参数如下
urlretrieve(url, filename``=``None``, reporthook``=``None``, data``=``None``)
,filename定义了文件位置以及文件类型。比如filename=D:name.txt,就是一个合法的参数定义格式。
同样我们可以配合文件操作,open()以及write,将爬取到的内容整合到一个txt,htm,文件,其中利用compile().findall()得到的返回值为一个列表,列表操作相当简单,就不做赘述。
对于用于大工程的爬虫会用到scrapy框架,涉及到的内容过多, 再次略过。其次有必要讲解一下的就是多线程爬虫,需要利用到treading模块,直接看help(treading)即可查看,也是一个十分简单的模块。