本文主要向大家介绍了Python语言在手,段子我有,通过具体的内容向大家展示,希望对大家学习Python语言有所帮助。
代码git地址:https://github.com/DemonYan/spider_study
后续爬虫相关代码都会在git上进行更新,请持续关注
本文分享自己学爬虫的一个代码。该代码实现的是使用urllib2爬取http://www.neihanpa.com/article/网站的段子。
小编也正处于学习python的阶段,如有什么错误,欢迎留言指出。
一、实现环境
mac 10.13.2
python 2.7
使用模块:urllib2
二、实现源码
#!/usr/bin/env python
#-*- coding:utf-8 -*-
#author: Demon
import urllib2
import random
import re
import os
# 定义多个User-Agent
header_list = [
"Mozilla/5.0(Macintosh;U;IntelMacOSX10_6_8;en-us)AppleWebKit/534.50(KHTML,likeGecko)Version/5.1Safari/534.50"
"Mozilla/5.0(Macintosh;IntelMacOSX10.6;rv:2.0.1)Gecko/20100101Firefox/4.0.1"
"Opera/9.80(Macintosh;IntelMacOSX10.6.8;U;en)Presto/2.8.131Version/11.11"<