python第一个爬虫_Python 第一个爬虫

python爬虫都应用requests库来处理复杂的http请求。requests库语法上简洁明了,使用上简单易懂,而且正逐步成为大多数网络爬取的标准。

1.先找到自己python安装目录下的pip

2.在自己的电脑里打开cmd窗口。先点击开始栏,在搜索栏输入cmd,按Enter,打开cmd窗口。

3.在cmd里将目录切换到你的pip所在路径。比如我的在C:\Python34\Scripts这个目录下,先切换到d盘,再进入这个路径。输入:cd  C:\Python34\Scripts

4.输入命令pip install requests 执行安装,等待他安装完成就可以了。下图:我之前已经安装成功了

5.安装完之后,就可以使用了

代码:

import requests

#定义请求url

url='https://www.zhaohengrui.cn/'

#发起get请求

res=requests.get(url=url)

#获取响应结果

print(res) #

print(res.content) #b 二进制的文本流

print(res.content.decode('utf-8'))

print(res.text) #获取响应的内容

print(res.headers) #响应头信息{'Server': 'nginx/1.16.1', 'Date': 'Sun, 19 Apr 2020 13:59:16 GMT', 'Content-Type': 'text/html', 'Last-Modified': 'Fri, 06 Mar 2020 02:42:13 GMT', 'Transfer-Encoding': 'chunked', 'Connection': 'keep-alive', 'ETag': 'W/"5e61b885-d848"', 'Content-Encoding': 'gzip'}

print(res.status_code) #请求状态码 200

print(res.url) #请求url地址

print(res.request.headers) #请求头信息{'User-Agent': 'python-requests/2.23.0', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

当禁止爬虫网页时:

打开源代码页面,找到Network,重新刷新网页,找到第一个网址进入Request Headers中的User-Agent复杂成功

import requests

#定义请求的url

#url='https://www.lmonkey.com/'

url='https://www.xicidaili.com/'

#定义请求头信息

headers={

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36'

}

#发起get请求

res=requests.get(url=url,headers=headers)

#获取响应状态码

code=res.status_code

print(code)

#响应成功后把响应内容写入文件中

if code==200:

with open('./out.html','w',encoding='utf-8') as fp:

fp.write(res.text)

post请求:找到关键字Form Data看关键字

importrequests#定义请求的URL

url='https://fanyi.baidu.com/sug'

#定义请求头信息

headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36'}#post发送的数据 如何做到自己输入自动翻译

data={'kw':'你好'} #字典的值为输入要翻译的内容  #data['ke']=input("输入要翻译的话语:")

#发送请求

res=requests.post(url=url,headers=headers,data=data)#接受返回数据

code=res.status_codeif code==200:print("请求成功")

data=res.json()if data['errno']==0:print("响应成功")#print(data)

#print(data['data'][0]['k'])

k=data['data'][0]['k']

v=data['data'][0]['v'].split(';')[-2]#print(v.split(';')[-2])

print(k,'==',v)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python有很多GUI库可以用来设计爬虫界面,比如Tkinter、PyQt、wxPython等等。这里以Tkinter为例,介绍如何设计一个带图形界面的爬虫。 首先,需要安装Tkinter库。在Python 3中,Tkinter是内置的,不需要额外安装。如果你使用的是Python 2.x版本,需要安装Tkinter库。 接下来,我们来设计一个简单的爬虫界面。界面上有一个输入框,用来输入要爬取的网站的URL,还有一个“开始爬取”按钮,点击后会开始爬取指定的网站。 下面是一个简单的代码示例: ```python import tkinter as tk import requests from bs4 import BeautifulSoup class CrawlerGUI: def __init__(self, master): self.master = master master.title("爬虫") self.label = tk.Label(master, text="请输入要爬取的网站URL:") self.label.pack() self.url_entry = tk.Entry(master) self.url_entry.pack() self.start_button = tk.Button(master, text="开始爬取", command=self.start_crawl) self.start_button.pack() def start_crawl(self): url = self.url_entry.get() response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') # 在这里写爬虫代码 root = tk.Tk() crawler_gui = CrawlerGUI(root) root.mainloop() ``` 在这个示例中,我们首先导入了tkinter、requests和BeautifulSoup库。然后,我们定义了一个CrawlerGUI类,该类包含了GUI界面的所有组件,包括标签、输入框和按钮。当用户点击“开始爬取”按钮时,会调用start_crawl()方法,该方法会从输入框中获取URL,然后使用requests库发起HTTP请求,获取网站的HTML内容。最后,使用BeautifulSoup库解析HTML内容,你可以在这里编写你的爬虫代码。 最后,我们创建一个Tkinter窗口,并实例化CrawlerGUI类,然后调用mainloop()方法来显示窗口。这样,我们就完成了一个简单的爬虫GUI界面的设计。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值