爬虫学习（1）

最新推荐文章于 2024-04-18 10:16:49 发布

如火也如荼

最新推荐文章于 2024-04-18 10:16:49 发布

阅读量50

点赞数

本文链接：https://blog.csdn.net/u9t9p60lpj/article/details/101029161

版权

爬虫，顾名思义，就是在互联网上爬行的程序，能抓取内容，利用正则表达式匹配后，则能找到想要的内容。

urllib和urllib2库
抓取百度首页的源码

import urllib2
response = urllib2.urlopen("http://www.baidu.com")
print response.read() #response是一个对象，具有read()方法

推荐是先构造一个request请求，再用urllib2.urlopen()函数响应请求

import urllib2
resquest = urllib2.Request("http://wwww.baidu.com")
response = urllib2.urlopen(request)
#先构造一个请求，再响应请求，逻辑清晰

再者，有时候有些网站需要提交数据，所以可以有。先提交数据再，响应请求。

需要提交的数据values======》values经过编码=====》提交给网站服务器===》响应

#!/usr/bin/python
# -*- encoding:utf-8 -*-
import urllib
import urllib2
values = {"username":"695966004@qq.com","password":"passwd"}
postData = urllib.urlencode(values)
url = "https://passport.csdn.net/"
request = urllib2.Request(url,postData)
response = urllib2.urlopen(request)
print response.read()

我们引入了urllib库，现在我们模拟登陆CSDN，当然上述代码可能登陆不进去，因为还要做一些设置头部header的工作，或者还有一些参数没有设置全，还没有提及到在此就不写上去了，在此只是说明登录的原理。我们需要定义一个字典，名字为values，参数我设置了username和 password，下面利用urllib的urlencode方法将字典编码，命名为data，构建request时传入两个参数，url和data，运行程序，即可实现登陆，返回的便是登陆后呈现的页面内容。当然你可以自己搭建一个服务器来测试一下。

接着是get方法

import urllib
import urllib2

values={}
values['username'] = "1016903103@qq.com"
values['password']="XXXX"
data = urllib.urlencode(values) 
url = "http://passport.csdn.net/account/login"
geturl = url + "?"+data
request = urllib2.Request(geturl)
response = urllib2.urlopen(request)
print response.read()

Categories: Python, 爬虫

如火也如荼

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫学习（1）

爬虫，顾名思义，就是在互联网上爬行的程序，能抓取内容，利用正则表达式匹配后，则能找到想要的内容。urllib和urllib2库抓取百度首页的源码import urllib2response = urllib2.urlopen("http://www.baidu.com")print response.read() #response是一个对象，具有read()方法推荐是先构造...
复制链接

扫一扫