Python 爬虫咸鱼版

最新推荐文章于 2024-08-16 09:15:24 发布

weixin_30950887

最新推荐文章于 2024-08-16 09:15:24 发布

阅读量4.9k

点赞数

文章标签： python 爬虫操作系统

原文链接：http://www.cnblogs.com/WYlover/p/10728793.html

版权

本文介绍了一次使用Python爬虫抓取咸鱼网站数据的实践，主要涉及urllib2和BeautifulSoup库的运用，详细阐述了爬虫实现的步骤。

摘要由CSDN通过智能技术生成

主要用到urllib2、BeautifulSoup模块

#encoding=utf-8
import re
import requests
import urllib2
import datetime
import MySQLdb
from bs4 import BeautifulSoup
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
class Splider(object):
  def __init__(self):
  print u'开始爬取内容...'
  ##用来获取网页源代码
  def getsource(self,url):
  headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2652.0 Safari/537.36'}
  req = urllib2.Request(url=url,headers=headers)
  socket = urllib2.urlopen(req)
  content = socket.read()
  socket.close()
  return content
  ##changepage用来生产不同页数的链接
  def changepage(self,url,total_page):
    now_page = int(re.search('page/(\d+)',url,re.S).group(1))
  page_group = []
  for i in range(now_page,total_page+1):
    link = re.sub