python 爬虫1

1 首先我们需要一个模块,Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用(requests 的底层实现其实就是 urllib3)继承了urllib的所有特性,支持 HTTP 连接保持和连接池,支持使用 cookie 保持会话,支持上传文件,支持自动确定响应内容的编码,支持国际化的 URL 和 POST 数据自动编码。
这里写图片描述

如图,在python 中导入模块(如果没有安装模块,可以 pip install requests 安装)

2 基本 GET 请求(headers 参数 和 parmas 参数
这里写图片描述

如图,headers参数是模仿一个浏览器,parmas参数结接收一个字典或者字符串的查询参数,字典类型自动转换为url编码。
print(respons.text) #查看响应内容,respons.text 返回的是Unicode格式的数据。

3 基本的 POST 请求(data 参数

**#导入模块**
import requests
import time
import hashlib

name=input('请输入需要翻译的单词:')

**#地址**
url='http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'

**#请求头**
headers={
    'Accept':'application/json, text/javascript, */*; q=0.01',
    # 'Accept-Encoding':'gzip, deflate',   #压缩格式(不需要)
    'Accept-Language':'zh-CN,zh;q=0.9',
    'Connection':'keep-alive',
    'Content-Length':str(len(name)+196),      #内容长度(你输入的单词长度加上196,找出的规律)
    'Content-Type':'application/x-www-form-urlencoded; charset=UTF-8',
    'Cookie':'OUTFOX_SEARCH_USER_ID=-447182930@10.168.1.247; JSESSIONID=aaa6CH4jdaGf-8ePqsNww; OUTFOX_SEARCH_USER_ID_NCOO=2080675206.107373; ___rl__test__cookies=1536110481944',
    'Host':'fanyi.youdao.com',
    'Origin':'http://fanyi.youdao.com',
    'Referer':'http://fanyi.youdao.com/',
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
    'X-Requested-With':'XMLHttpRequest',
    }

**# 时间戳:**
salt=int(time.time()*1000)

**##md5加密**
def getMd5(value):
    md5=hashlib.md5()
    md5.update(bytes(value,encoding='utf-8'))         #bytes 值是二进制的
    return md5.hexdigest()                            ##32位的加密串

**#加密之前的字符串**
sign_str="fanyideskweb" + name + str(salt) + "6x(ZHw]mwzX#u0V7@yfwK"
sign=getMd5(sign_str)

**#表单数据**
data={
    'i':name,
    'from':'AUTO',
    'to':'AUTO',
    'smartresult':'dict',
    'client':'fanyideskweb',
    'salt':salt,                   #时间戳
    'sign':sign,                   # md5加密字符串
    'doctype':'json',
    'version':'2.1',
    'keyfrom':'fanyi.web',
    'action':'FY_BY_REALTIME',
    'typoResult':'false',
    }
response=requests.post(url=url,data=data,headers=headers)
print(response.text)

4 爬取图片

这里写图片描述

如图,是爬取一张图片的代码,先导入模块,然后将地址输入(先将网站地址输入,然后将图片地址输入,如:/img/langlan1.png 是图片地址),保存。
print(respons.content) #查看响应内容,respons.content返回的是字节流数据。

爬取多张图片,需要正则来爬取

**#导入模块**
import requests
import re

**#提取页面**
response=requests.get(url='http://langlang2017.com/')

**#提取数据(正则表达式)**
pattern=re.compile(r'src="(img/banner\d.png)"')

result=pattern.findall(response.text)

print(result)

base_url='http://langlang2017.com/'
a=1

for i in result:
    full_url = base_url + i
    response=requests.get(full_url)
    file_name='banner%d.png'%a
    with open(file_name,'wb')as fp:
        fp.write(response.content)
    a+=1

如代码所示,先将页面爬取出来,之后用正则来匹配页面中图片的地址路径,全部匹配,之后返回列表为多个图片的地址路径,然后遍历后与页面地址连接,用这个新的地址继续请求,最后保存即可把页面中的匹配的图片全部抓取出来。

5 处理 HTTP 请求 SSL 证书验证
Requests 也可以为 HTTPS 请求验证 SSL 证书:
要想检查某个主机的SSL证书,可以使用 verify 参数。
这里写图片描述

如图,verify=Ture 表示需要验证,verify=False 表示不需要验证。

未完待续

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Go语言(也称为Golang)是由Google开发的一种静态强类型、编译型的编程语言。它旨在成为一门简单、高效、安全和并发的编程语言,特别适用于构建高性能的服务器和分布式系统。以下是Go语言的一些主要特点和优势: 简洁性:Go语言的语法简单直观,易于学习和使用。它避免了复杂的语法特性,如继承、重载等,转而采用组合和接口来实现代码的复用和扩展。 高性能:Go语言具有出色的性能,可以媲美C和C++。它使用静态类型系统和编译型语言的优势,能够生成高效的机器码。 并发性:Go语言内置了对并发的支持,通过轻量级的goroutine和channel机制,可以轻松实现并发编程。这使得Go语言在构建高性能的服务器和分布式系统时具有天然的优势。 安全性:Go语言具有强大的类型系统和内存管理机制,能够减少运行时错误和内存泄漏等问题。它还支持编译时检查,可以在编译阶段就发现潜在的问题。 标准库:Go语言的标准库非常丰富,包含了大量的实用功能和工具,如网络编程、文件操作、加密解密等。这使得开发者可以更加专注于业务逻辑的实现,而无需花费太多时间在底层功能的实现上。 跨平台:Go语言支持多种操作系统和平台,包括Windows、Linux、macOS等。它使用统一的构建系统(如Go Modules),可以轻松地跨平台编译和运行代码。 开源和社区支持:Go语言是开源的,具有庞大的社区支持和丰富的资源。开发者可以通过社区获取帮助、分享经验和学习资料。 总之,Go语言是一种简单、高效、安全、并发的编程语言,特别适用于构建高性能的服务器和分布式系统。如果你正在寻找一种易于学习和使用的编程语言,并且需要处理大量的并发请求和数据,那么Go语言可能是一个不错的选择。
Go语言(也称为Golang)是由Google开发的一种静态强类型、编译型的编程语言。它旨在成为一门简单、高效、安全和并发的编程语言,特别适用于构建高性能的服务器和分布式系统。以下是Go语言的一些主要特点和优势: 简洁性:Go语言的语法简单直观,易于学习和使用。它避免了复杂的语法特性,如继承、重载等,转而采用组合和接口来实现代码的复用和扩展。 高性能:Go语言具有出色的性能,可以媲美C和C++。它使用静态类型系统和编译型语言的优势,能够生成高效的机器码。 并发性:Go语言内置了对并发的支持,通过轻量级的goroutine和channel机制,可以轻松实现并发编程。这使得Go语言在构建高性能的服务器和分布式系统时具有天然的优势。 安全性:Go语言具有强大的类型系统和内存管理机制,能够减少运行时错误和内存泄漏等问题。它还支持编译时检查,可以在编译阶段就发现潜在的问题。 标准库:Go语言的标准库非常丰富,包含了大量的实用功能和工具,如网络编程、文件操作、加密解密等。这使得开发者可以更加专注于业务逻辑的实现,而无需花费太多时间在底层功能的实现上。 跨平台:Go语言支持多种操作系统和平台,包括Windows、Linux、macOS等。它使用统一的构建系统(如Go Modules),可以轻松地跨平台编译和运行代码。 开源和社区支持:Go语言是开源的,具有庞大的社区支持和丰富的资源。开发者可以通过社区获取帮助、分享经验和学习资料。 总之,Go语言是一种简单、高效、安全、并发的编程语言,特别适用于构建高性能的服务器和分布式系统。如果你正在寻找一种易于学习和使用的编程语言,并且需要处理大量的并发请求和数据,那么Go语言可能是一个不错的选择。
Go语言(也称为Golang)是由Google开发的一种静态强类型、编译型的编程语言。它旨在成为一门简单、高效、安全和并发的编程语言,特别适用于构建高性能的服务器和分布式系统。以下是Go语言的一些主要特点和优势: 简洁性:Go语言的语法简单直观,易于学习和使用。它避免了复杂的语法特性,如继承、重载等,转而采用组合和接口来实现代码的复用和扩展。 高性能:Go语言具有出色的性能,可以媲美C和C++。它使用静态类型系统和编译型语言的优势,能够生成高效的机器码。 并发性:Go语言内置了对并发的支持,通过轻量级的goroutine和channel机制,可以轻松实现并发编程。这使得Go语言在构建高性能的服务器和分布式系统时具有天然的优势。 安全性:Go语言具有强大的类型系统和内存管理机制,能够减少运行时错误和内存泄漏等问题。它还支持编译时检查,可以在编译阶段就发现潜在的问题。 标准库:Go语言的标准库非常丰富,包含了大量的实用功能和工具,如网络编程、文件操作、加密解密等。这使得开发者可以更加专注于业务逻辑的实现,而无需花费太多时间在底层功能的实现上。 跨平台:Go语言支持多种操作系统和平台,包括Windows、Linux、macOS等。它使用统一的构建系统(如Go Modules),可以轻松地跨平台编译和运行代码。 开源和社区支持:Go语言是开源的,具有庞大的社区支持和丰富的资源。开发者可以通过社区获取帮助、分享经验和学习资料。 总之,Go语言是一种简单、高效、安全、并发的编程语言,特别适用于构建高性能的服务器和分布式系统。如果你正在寻找一种易于学习和使用的编程语言,并且需要处理大量的并发请求和数据,那么Go语言可能是一个不错的选择。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值