cl.wecl.biz index.php,抓取1024用户名 Hey,Hey,Hey

最新推荐文章于 2024-10-09 17:10:24 发布

weixin_39520869

最新推荐文章于 2024-10-09 17:10:24 发布

阅读量2.7k

点赞数

文章标签： cl.wecl.biz index.php

该博客主要介绍了使用Python的urllib和urllib2库进行网页请求，以及正则表达式re模块进行数据提取。作者通过示例展示了如何处理gzip压缩的响应，并从指定网页中抓取特定数据。博客还包含了一个简单的多页爬取示例，间隔10秒抓取每个页面，以避免过于频繁的请求。

摘要由CSDN通过智能技术生成

# coding: gb2312

import urllib

import re

import urllib2

import gzip

from xmlrpclib import gzip_decode

import sys

import time

def getHtml(url):

req_header = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0',

'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3',

'Accept-Encoding': 'gzip, deflate',

'Referer': 'http://cl.wecl.biz/thread0806.php?fid=7',

'Cookie': '__cfduid=d4b20a829ffba3d7e390aa12bb7a02bc11451978228; CNZZDATA950900=cnzz_eid%3D947358398-1451974316-%26ntime%3D1451979935; __utma=29374829.582752694.1451978230.1451978230.1451983608.2; __utmc=29374829; __utmz=29374829.1451978230.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __utmb=29374829.3.10.1451983608; 227c9_lastfid=7; 227c9_lastvisit=0%091451984992%09%2Fthread0806.php%3Ffid%3D7%26search%3D%26page%3D5; __utmt=1'

}

req_timeout = 10

req = urllib2.Request(url,None,req_header)

resp = urllib2.urlopen(req,None,req_timeout)

html = resp.read()

html = gzip_decode(html)

return html

def getNickname(html):

#Reg='class="bl">(.+)'

Reg='by: (.+)'

DomainReg=re.compile(Reg)

DomainList=re.findall(DomainReg,html)