python爬虫基础

1.爬虫入门程序

    首先我们调用的是 urllib2 库里面的 urlopen 方法,传入一个 URL,这个网址是百度首页,协议是 HTTP 协议,当然你也可以把 HTTP 换做 FTP,FILE,HTTPS 等等,只是代表了一种访问控制协议,
    urlopen 一般接受三个参数,它的参数如下:urlopen(url, data, timeout)                                    第一个参数 url 即为 URL,
第二个参数 data 是访问 URL 时要传送的数据,
第三个 timeout 是设置超时时间。
第二三个参数是可以不传送的,data 默认为空 None,timeout 默认为 socket._GLOBAL_DEFAULT_TIMEOUT 第一个参数 URL 是必须要传送的,在这个例子里面我们传送了百度的 URL,执行 urlopen 方法之后,返回一个 response 对象,返回信息便保存在这里面。


2.爬虫程序添加data、header,然后post请求

#填写地址url
url = ‘http://www.server.com/login’
#设置Headers 的参数
user_agent = ‘Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)’
#设置data 参数是访问URL时要传送的数据
values = {‘username’ : ‘cqc’, ‘password’ : ‘XXXX’ }
#设置Headers 的属性
headers = { ‘User-Agent’ : user_agent }
#对data数据进行编码
data = urllib.urlencode(values)
#进行请求
request = urllib2.Request(url, data, headers)
#进行访问
response = urllib2.urlopen(request)
#返回获取到的网页内容
page = response.read()


3.爬虫程序添加cookie

    cookielib 模块的主要作用是提供可存储 cookie 的对象,以便于与 urllib2 模块配合使用来访问 Internet 资源。Cookielib 模块非常强大,我们可以利用本模块的 CookieJar 类的对象来捕获 cookie 并在后续连接请求时重新发送,比如可以实现模拟登录功能。该模块主要的对象有 CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。 它们的关系:CookieJar —— 派生 ——>FileCookieJar —— 派生 ——->MozillaCookieJar 和 LWPCookieJar
1
import urllib
import urllib2
import cookielib

filename = ‘cookie.txt’

4.正则表达式

    Python中re模块主要功能是通过正则表达式是用来匹配处理字符串的 。import re 导入该模块后,就可以使用该模块下的所有方法和属性。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值