爬虫
文章平均质量分 77
风口的猪2016
做一个开心的IT男吧
展开
-
(一)爬虫入门
# -*- coding: utf-8 -*- import urllib2import urllib''' #最简单的网页内容抓取request = urllib2.Request("http://www.baidu.com")response = urllib2.urlopen(request)print response.read()''''''#post方式发送请求原创 2017-09-27 13:31:05 · 349 阅读 · 0 评论 -
(二)爬取百度帖子
注意:网站会更新,正则表达式不一定都能匹配,F12自己去网站看看修改一下# -*- coding:utf-8 -*-import urllibimport urllib2import re#百度贴吧class BDTB: #初始化,传入基地址,是否只看楼主的参数 def __init__(self,baseUrl,seeLZ): self.原创 2017-09-27 14:04:42 · 495 阅读 · 0 评论 -
(三)爬取百度帖子(完善)
# -*- coding:utf-8 -*-import urllibimport urllib2import re#百度贴吧class BDTB: #初始化,传入基地址,是否只看楼主的参数 def __init__(self,baseUrl,seeLZ): self.baseURL = baseUrl self.seeLZ = '?s原创 2017-09-27 19:31:26 · 423 阅读 · 0 评论