requests爬取get\post网页及二级链接网页

最新推荐文章于 2024-05-02 21:47:38 发布

Jayj1997

最新推荐文章于 2024-05-02 21:47:38 发布

阅读量1.3k

点赞数 1

分类专栏：爬虫文章标签：爬虫 requests

本文链接：https://blog.csdn.net/Jayj1997/article/details/101199461

版权

爬虫专栏收录该内容

12 篇文章 0 订阅

订阅专栏

我的爬虫学习

requests爬取网页及二级链接网页
- requests获取网页

requests爬取网页及二级链接网页

相对于scrapy+selenium，真正上班了才发现requests是真的好用，简便快捷，不需要配置一大堆的东西，即写即用，但是有些被设置了很复杂的反爬虫网页的时候，selenium的click（）方法是真的好用T.T

requests获取网页

#首先import
import requests,time,re,json

首先要先分析网页，用chrome的f12，在network里查看点击下一页啊，点开网站都是用的什么方法。然后首先

url = '你要爬取的网页'
for i in range(1, page+1)
#page+1等于页数
print('第{}页'.format(i)) 
headers= {
	 "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
        "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)",
        "Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
      #就写这么几个，需要的百度
data = {
	#分析网页的时候就会发现是post还是get方法，如果是get方法不需要写data
	#例如
	'pageIndex' = i,
	'citycode' = '20000'
}
#未经筛选的get方法网页源码
un_content = request.get(url, headers=headers).content.decode('utf-8')..replace('\t', '').replace('\r', '').replace('\n', '')
time.sleep(1)
#post
un_content = requests.post(url, data=data).content.decode('utf-8')..replace('\t', '').replace('\r', '').replace('\n', '')
time.sleep(1)
content = re.findall(r'按照你需要的内容进行筛选', un_content)
for info in content:
	try:
		url_inside = '你从一级链接获取的url'
		#继续get
		inside_url = requests.get
		find_duplicated = #检查重复函数
		if find_duplicated == None:
			存入数据库或者输出等~
	except Exception as e:
		print(e)
大概就是这样一个流程，下一个写遇到json加密的网页怎么办