初学Python之爬虫学习

最新推荐文章于 2022-11-26 11:00:00 发布

不败的将军无敌

最新推荐文章于 2022-11-26 11:00:00 发布

阅读量284

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/qq_45031575/article/details/105009481

版权

为了满足自己的好奇心，想运用一下Python知识，然后和小伙伴要来了一个爬虫学习的B站博主的视频，教你学爬虫，真的很详细。

先上一个目录结构压压惊：

接下来就是贴代码笔记还有一个第三方库的目录：

1.requests的用法：

requests的基本使用

import requests

url = 'https://www.baidu.com'

res = requests.get(url=url)

#获取响应结果
print(res)
print(res.status_code)
print(res.content)
print(res.content.decode('utf-8'))
print(res.text)
print(res.url)
print(res.request.headers)
print(res.headers)

requests请求头

import requests

# 定义url
# url = 'https://www.lmonkey.com/'
url = 'https://www.xicidaili.com/nn'

#定义请求头信息  做个伪装身份
headers={
   
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.116 Safari/537.36'
}

#发起get请求
res = requests.get(url=url,headers=headers)
#获取响应状态码
code = res.status_code
print(code)
#响应成功后将响应内容写入文件中
if code == 200:
    with open('./text.html','w',encoding='utf-8') as fp:
        fp.write(res.text)

requests的post请求

import requests

url = 'https://fanyi.baidu.com/sug'

word = input('请输入要翻译的中文：')

headers = {
   

}

data = {
   
    'kw':word
}

res = requests.post(url=url,headers=headers,data=data)

code = res.status_code
print(code)
#返回的是文本数据
print(res.text)
#返回的是json数据
print(res.json())

if code ==200:
    print('请求成功')
    data = res.json()
    if data['errno'] == 0:
        print('响应成功')
        k = data['data'][0]['k']
        v = data['data'][0]['v'].split(';')[-2]
        print(k+'-->'+v)

requests的session方法

import requests

# 需要请求的目标地址
url = 'http://www.rrys2019.com/user/user'


# 登陆请求的地址
loginUrl = 'http://www.rrys2019.com/User/login/ajaxLogin'


#请求头
headers = {
   
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.116 Safari/537.36'
}


#如果需要爬虫程序主动记录cookie并且携带cookie 那么使用requests之前先调用session方法
#使用session方法返回的对象发送请求即可
req = requests.session()

#登陆请求时的数据
data = {
   
    'account' : 'yichuan@itxdl.cn',
    'password' : 'pyTHON123',
    'remeber' : '1',
    'url_back' : 'http://zmz2019.com/user/user'
}


#发起登陆请求
res = req.post(url=loginUrl,headers=headers,data=data)

#判断状态
code = res.status_code
print(code)

if code == 200:
    #发起新的请求，去获取目标数据
    res = req.get(url=url,headers=headers)
    with open('rr.html','w',encoding='utf-8') as fp:
        fp.write(res.text)

2.Xpath的使用

Xpath的基本操作

from lxml import etree

text ='''
<!DOCTYPE html>
<html>
	<head>
		<meta charset="utf-8">
		<title>老白的登陆界面</title>
		<link rel="stylesheet" href="web.css"/>
	</head>
	<body>
		<div >
			<div class="kuai">
				<p class="inpu">账号:</p>
				<input type="text" value="请输入账号"/><br />
				<p class="inpu">密码:</p>
				<input type="password" /><br />
				<br />
				<input type="submit" value="登陆"/>
				<input type="submit" value="忘记密码" />
			</div>
		</div>
	</body>
</html>
'''

#第一种方法解析使用etree解析HTML字符串
html = etree.HTML(text)
#print(html)
#提取数据
r = html.xpath('/html/body/div/div/p/text()')
#['账号:', '密码:']
print(r)
#['账号:']
r = html.xpath('/html/body/div/div/p[1]/text()')
print(r)



#第二种方式读取一个HTML文件并解析
html = etree.parse('./test.html',etree.HTMLParser())
# print(html)
# result = etree.tostring(html)
#

最低0.47元/天解锁文章

不败的将军无敌

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
初学Python之爬虫学习

为了满足自己的好奇心，想运用一下Python知识，然后和小伙伴要来了一个爬虫学习的B站博主的视频，教你学爬虫，真的很详细。先上一个目录结构压压惊：接下来就是贴代码笔记还有一个第三方库的目录：1.requests的用法：requests的基本使用import requestsurl = 'https://www.baidu.com'res = requests.get(u...
复制链接

扫一扫