初学Python之爬虫学习

为了满足自己的好奇心,想运用一下Python知识,然后和小伙伴要来了一个爬虫学习的B站博主的视频,教你学爬虫,真的很详细。


先上一个目录结构压压惊:
在这里插入图片描述
接下来就是贴代码笔记还有一个第三方库的目录:
在这里插入图片描述

1.requests的用法:

  • requests的基本使用
import requests

url = 'https://www.baidu.com'

res = requests.get(url=url)

#获取响应结果
print(res)
print(res.status_code)
print(res.content)
print(res.content.decode('utf-8'))
print(res.text)
print(res.url)
print(res.request.headers)
print(res.headers)
  • requests请求头
import requests

# 定义url
# url = 'https://www.lmonkey.com/'
url = 'https://www.xicidaili.com/nn'

#定义请求头信息  做个伪装身份
headers={
   
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.116 Safari/537.36'
}

#发起get请求
res = requests.get(url=url,headers=headers)
#获取响应状态码
code = res.status_code
print(code)
#响应成功后将响应内容写入文件中
if code == 200:
    with open('./text.html','w',encoding='utf-8') as fp:
        fp.write(res.text)
  • requests的post请求
import requests

url = 'https://fanyi.baidu.com/sug'

word = input('请输入要翻译的中文:')

headers = {
   

}

data = {
   
    'kw':word
}

res = requests.post(url=url,headers=headers,data=data)

code = res.status_code
print(code)
#返回的是文本数据
print(res.text)
#返回的是json数据
print(res.json())

if code ==200:
    print('请求成功')
    data = res.json()
    if data['errno'] == 0:
        print('响应成功')
        k = data['data'][0]['k']
        v = data['data'][0]['v'].split(';')[-2]
        print(k+'-->'+v)
  • requests的session方法
import requests

# 需要请求的目标地址
url = 'http://www.rrys2019.com/user/user'


# 登陆请求的地址
loginUrl = 'http://www.rrys2019.com/User/login/ajaxLogin'


#请求头
headers = {
   
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.116 Safari/537.36'
}


#如果需要爬虫程序主动记录cookie并且携带cookie 那么使用requests之前先调用session方法
#使用session方法返回的对象发送请求即可
req = requests.session()

#登陆请求时的数据
data = {
   
    'account' : 'yichuan@itxdl.cn',
    'password' : 'pyTHON123',
    'remeber' : '1',
    'url_back' : 'http://zmz2019.com/user/user'
}


#发起登陆请求
res = req.post(url=loginUrl,headers=headers,data=data)

#判断状态
code = res.status_code
print(code)

if code == 200:
    #发起新的请求,去获取目标数据
    res = req.get(url=url,headers=headers)
    with open('rr.html','w',encoding='utf-8') as fp:
        fp.write(res.text)

2.Xpath的使用

  • Xpath的基本操作
from lxml import etree

text ='''
<!DOCTYPE html>
<html>
	<head>
		<meta charset="utf-8">
		<title>老白的登陆界面</title>
		<link rel="stylesheet" href="web.css"/>
	</head>
	<body>
		<div >
			<div class="kuai">
				<p class="inpu">账号:</p>
				<input type="text" value="请输入账号"/><br />
				<p class="inpu">密码:</p>
				<input type="password" /><br />
				<br />
				<input type="submit" value="登陆"/>
				<input type="submit" value="忘记密码" />
			</div>
		</div>
	</body>
</html>
'''

#第一种方法解析使用etree解析HTML字符串
html = etree.HTML(text)
#print(html)
#提取数据
r = html.xpath('/html/body/div/div/p/text()')
#['账号:', '密码:']
print(r)
#['账号:']
r = html.xpath('/html/body/div/div/p[1]/text()')
print(r)



#第二种方式读取一个HTML文件并解析
html = etree.parse('./test.html',etree.HTMLParser())
# print(html)
# result = etree.tostring(html)
# 
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值