Python 普通爬虫

最新推荐文章于 2024-07-18 12:57:54 发布

diaomao5080

最新推荐文章于 2024-07-18 12:57:54 发布

阅读量230

点赞数

文章标签：爬虫 python

原文链接：http://www.cnblogs.com/zlong123/p/10523477.html

版权

import urllib.request
#向指定的url地址发起请求，并返回服务器响应的数据（文件的对象）
#response=urllib.request.urlopen("http://www.baidu.com")
#1读取文件的全部内容，会把读取到的数据赋值给一个字符串变量
#data=response.read().decode("utf-8")#编译后阅读
#2读取一行
#data2=response.readline()
#3读取文件的全部内容，会把读取到的数据赋值给一个列表
#data3=response.readlines()

#将爬到的网页写入文件
#with open(r"D:\file","wb") as f:
    #f.write(data)

#返回当前正在爬取的URL地址
#print(response.geturl())#http://www.baidu.com
'''
url="http://www.baidu.com"
response=urllib.request.urlopen(url)
#编码,这个只能标码http格式的
newUrl2=urllib.request.unquote(url)
print(newUrl2)
#解码
newUrl=urllib.request.unquote(newUrl2)
print(newUrl)
'''


普通爬虫，模拟
import urllib.request
import random
url="http://www.baidu.com"
agentsList=["Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)" \
  " Chrome/56.0.2924.90 Safari/537.36 2345Explorer/9.6.0.18627",
            "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)",
             "Mozilla/4.0 (compatible; MSIE 6.0; ) Opera/UCWEB7.0.2.37/28/999",
            "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; TencentTraveler 4.0)"  ]
agentStr=random.choice(agentsList)
req=urllib.request.Request(url)
req.add_header("User-Agent",agentStr)
response=urllib.request.urlopen(req)
print(response.read().decode("utf-8"))

转载于:https://www.cnblogs.com/zlong123/p/10523477.html

diaomao5080

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python 普通爬虫

import urllib.request#向指定的url地址发起请求，并返回服务器响应的数据（文件的对象）#response=urllib.request.urlopen("http://www.baidu.com")#1读取文件的全部内容，会把读取到的数据赋值给一个字符串变量#data=response.read().decode("utf-8")#编译后阅读#2读取一行#data2...
复制链接

扫一扫