Python基础学习-爬虫小试2

原创 2015年11月18日 15:02:03
import urllib.parse
import urllib.request

data =urllib.parse.urlencode({"wd": "haha"})
url="http://baidu.com/s"
request=urllib.request.Request(url+'?'+data)
response=urllib.request.urlopen(request)
th_page=response.read().decode('utf8')
f=open('learnPY\\out.html','w',encoding='utf-8')
f.write(th_page)
f.close()
print("DONE")


     上头代码是get方式,GET方式是直接以链接形式访问,链接中包含了所有的参数,当然如果包含了密码的话是一种不安全的选择,不过你可以直观地看到自己提交了什么内容。POST则不会在网址上显示所有的参数。post参考下段代码:

import urllib
import urllib2
 
values = {"username":"1016903103@qq.com","password":"XXXX"}
data = urllib.urlencode(values) 
url = "https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn"
request = urllib2.Request(url,data)
response = urllib2.urlopen(request)
print response.read()

该段代码适用于2.X版本


卡住的地方是文本的encode和decode

     字符串在Python内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码。

  • decode的作用是将其他编码的字符串转换成unicode编码,如str1.decode('gb2312'),表示将gb2312编码的字符串str1转换成unicode编码。
  • encode的作用是将unicode编码转换成其他编码的字符串,如str2.encode('gb2312'),表示将unicode编码的字符串str2转换成gb2312编码。


另:文本存储要注意路径设置!


经人介绍,安装了第三方库:requests

修改如下:

import requests

data ={"wd": "haha"}
url="http://baidu.com/s"
request=requests.get(url, params=data)
f=open('out.html','w',encoding='utf-8')
f.write(request.text)
f.close()
print("DONE")


版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

Python网络爬虫小试刀——抓取ZOL桌面壁纸图片2

将一个类型集合的全部图片下载到指定名字文件夹中,使用urllib2

用Python在喜马拉雅音乐爬虫小试

前一段时间在廖雪峰老师的博客上跟着学了一遍python3,决定试着写一个简单的爬虫程序。工作中有同事问我喜马拉雅上的音频怎么下载,我都是让他们去到浏览区缓存文件夹里去找,改下后缀为mp3就可以播放了,...

Python爬虫小试身手

爬虫经常看到有人用Python作爬虫玩,自己也手痒痒,之前看过一些介绍,但是当时什么都不懂,html和计算机网络都不知道是什么。现在算是懂一点点了,就学着写一个玩玩。感觉爬虫主要就是获取目标网站的源代...

Python爬虫基础-2

异常处理问题当urlopen不能够处理一个req时,产生urlError。不过通常的Python APIs异常如ValueError,TypeError等也会同时产生。HTTPError是urlErr...

python3 [入门基础实战] 爬虫入门之xpath的学习

Xpath Xpath全程为xml路径语言,用来确定xml文档中某部分位置的语言。 使用Xpath需要安装lxml库,lxml为Python的第三方库,安装方法可以直接下载库文件手动添加到pyth...

Python 基础学习 网络小爬虫

Python 基础学习 网络小爬虫

python 爬虫学习一(基础)

一、准备工作 之前不理解爬虫的时候,感觉很强大,当你理解后会发现确实很强大,哈哈,开个小玩笑。言归正传,当你深入的了解,会发现爬虫其实就是解析网页内容,利用xpath、selector、re等语法抽取...

python学习笔记(3)--爬虫基础教程1

Python学习笔记(3)-爬虫基础教程(1)  参考网页:【1】.爬虫:http://www.cnblogs.com/fnng/p/3576154.html             ...

python3 [入门基础实战] 爬虫入门之智联招聘的学习(一)

老实说:懵逼啊 这次爬取的是智联招聘上的求职数据,虽然没有仔细正确核对一下数据是否具有重复性,随机抽查了些,数据大部分还是能对上来的,这次爬取的智联招聘上的数据90页,每页60条,主要抓取的是an...

机器学习小试(2)使用多层神经网络进行分类实验

已经学到这篇教程的第十章啦!教程的数学背景清晰、讲述深浅适宜。动手实现一个分类器吧!借助TF,我们可以绕开烦恼的偏微分方程与矩阵权传递。此外,变步长下降算法能够很好的适应梯度变化。...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Python基础学习-爬虫小试2
举报原因:
原因补充:

(最多只允许输入30个字)