Python 普通爬虫

import urllib.request
#向指定的url地址发起请求,并返回服务器响应的数据(文件的对象)
#response=urllib.request.urlopen("http://www.baidu.com")
#1读取文件的全部内容,会把读取到的数据赋值给一个字符串变量
#data=response.read().decode("utf-8")#编译后阅读
#2读取一行
#data2=response.readline()
#3读取文件的全部内容,会把读取到的数据赋值给一个列表
#data3=response.readlines()

#将爬到的网页写入文件
#with open(r"D:\file","wb") as f:
#f.write(data)

#返回当前正在爬取的URL地址
#print(response.geturl())#http://www.baidu.com
'''
url="http://www.baidu.com"
response=urllib.request.urlopen(url)
#编码,这个只能标码http格式的
newUrl2=urllib.request.unquote(url)
print(newUrl2)
#解码
newUrl=urllib.request.unquote(newUrl2)
print(newUrl)
'''

普通爬虫,模拟

import urllib.request
import random
url="http://www.baidu.com"
agentsList=["Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)" \
" Chrome/56.0.2924.90 Safari/537.36 2345Explorer/9.6.0.18627",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)",
"Mozilla/4.0 (compatible; MSIE 6.0; ) Opera/UCWEB7.0.2.37/28/999",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; TencentTraveler 4.0)" ]
agentStr=random.choice(agentsList)
req=urllib.request.Request(url)
req.add_header("User-Agent",agentStr)
response=urllib.request.urlopen(req)
print(response.read().decode("utf-8"))

转载于:https://www.cnblogs.com/zlong123/p/10523477.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值