第一个网页爬虫(python3版本)

直接上代码

首先说明下,为什么要加入头部?

因为爬取时最正式的做法是仿照http的过程,在用爬虫获取网页的时候,加入头部,伪装成浏览器。Http 其实就是 请求/响应模式,永远都是 客户端向服务端发送请求,然后服务端再返回响应。


有一个问题就是 头部改怎么加?可以打开你的浏览器,按F12,有的是Fn+F12

打开开发者工具模式后,进入随便一个网页,如下图:

选择Network,然后选择name中任一项,找到Request Headers中的User-Agent,复制下来就是头部。


import urllib.request
#网址
url = r'http://douban.com'
#加入请求头,有一些网页没有头部是不能访问的,会返回 403错误
headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
#请求
req = urllib.request.Request(url=url,headers=headers)
#响应的爬取结果
res = urllib.request.urlopen(req)
#设置解码方式
html = res.read().decode('utf-8')
#打印结果
print(html)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
可以按照以下步骤使用Python生成一个网页爬虫程序: 1. 安装Python。可以从Python官方网站(https://www.python.org/downloads/)下载安装包,然后按照提示进行安装。 2. 安装需要的库。使用Python进行网页爬虫需要使用第三方库,例如Beautiful Soup和Requests。可以使用pip命令来安装这些库,例如在命令行中输入以下命令来安装Beautiful Soup和Requests: ```python pip install beautifulsoup4 pip install requests ``` 3. 编写Python代码。可以使用Python编写一个简单的网页爬虫程序,例如以下代码: ```python import requests from bs4 import BeautifulSoup url = 'https://www.example.com' response = requests.get(url) soup = BeautifulSoup(response.content, 'html.parser') print(soup.title.string) ``` 这个程序会获取https://www.example.com网站的HTML内容,并使用Beautiful Soup库解析HTML,然后输出网页的标题。 4. 运行Python程序。保存上述代码为.py文件,然后在命令行中运行该程序。例如,在命令行中输入以下命令来运行上述程序: ```python python mycrawler.py ``` 5. 分析网页内容。使用Beautiful Soup库可以很方便地分析网页内容,例如获取网页中的链接、图片等等。 以上就是使用Python生成一个网页爬虫程序的步骤。需要注意的是,网页爬虫有可能会违反网站的使用条款,因此在使用时需要谨慎,不要过度频繁地访问同一网站,以避免被封禁IP地址。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值