requests爬取get\post网页及二级链接网页

requests爬取网页及二级链接网页

相对于scrapy+selenium,真正上班了才发现requests是真的好用,简便快捷,不需要配置一大堆的东西,即写即用,但是有些被设置了很复杂的反爬虫网页的时候,selenium的click()方法是真的好用T.T

requests获取网页

#首先import
import requests,time,re,json

首先要先分析网页,用chrome的f12,在network里查看点击下一页啊,点开网站都是用的什么方法。然后首先

url = '你要爬取的网页'
for i in range(1, page+1)
#page+1等于页数
print('第{}页'.format(i)) 
headers= {
	 "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
        "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)",
        "Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
      #就写这么几个,需要的百度
data = {
	#分析网页的时候就会发现是post还是get方法,如果是get方法不需要写data
	#例如
	'pageIndex' = i,
	'citycode' = '20000'
}
#未经筛选的get方法网页源码
un_content = request.get(url, headers=headers).content.decode('utf-8')..replace('\t', '').replace('\r', '').replace('\n', '')
time.sleep(1)
#post
un_content = requests.post(url, data=data).content.decode('utf-8')..replace('\t', '').replace('\r', '').replace('\n', '')
time.sleep(1)
content = re.findall(r'按照你需要的内容进行筛选', un_content)
for info in content:
	try:
		url_inside = '你从一级链接获取的url'
		#继续get
		inside_url = requests.get
		find_duplicated = #检查重复函数
		if find_duplicated == None:
			存入数据库或者输出等~
	except Exception as e:
		print(e)
大概就是这样一个流程,下一个写遇到json加密的网页怎么办
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值