CSDN模拟用户访问

本教程仅供学习,禁止用于其他用途

使用 superagent 与 cheerio两个库 模拟用户访问

  • 在config.json 中添加自己的博客地址(我的博客页的网址)
    在这里插入图片描述

  • 安装依赖,开始跑即可

此次demo所有代码都上传到GitHub中,有需要的同学自取,记得给个star噢,传送门

分析代码组成

1.初始化

	init() {
		return new Promise((resolve, reject) => {
			var _this = this
			//读取文件博客地址
			var data = fs.readFileSync('config.json', 'utf-8')
			this.baseURL = JSON.parse(JSON.parse(JSON.stringify(data))).blogURL
			//获取博客列表的URL地址
			superagent
				.get(this.baseURL)
				.then((res) => {
					const $ = cheerio.load(res.text)
					var list = $('.article-list').find('.article-item-box')
					list.each(function () {
						var href = $(this).find('a').attr('href')
						_this.blogs.push(href)
					})
					resolve(_this.baseURL)
				})
				.catch((e) => {
					console.log(e)
				})
		})
	}
  • 引入 fs 模块 读取config配置
  • 使用superagent 访问获取博客页的html
  • 使用cheerio 将html 解析
  • 操作DOM 获取博客列表的URL,将其保存

2.访问

    // 访问
	visit() {
		this.blogs.map((item, index) => {
			superagent
				.get(item)
				.then((res) => {
					console.log('success')
				})
				.catch((e) => {
					console.log(e)
				})
		})
	}
  • 没有啥好说的了,就是对URL列表循环然后依次访问

3.全代码

var superagent = require('superagent')
const cheerio = require('cheerio')
const fs = require('fs')

class Spider {
	constructor() {
		this.baseURL = ''
		this.blogs = []
	}

	init() {
		return new Promise((resolve, reject) => {
			var _this = this
			//读取文件博客地址
			var data = fs.readFileSync('config.json', 'utf-8')
			this.baseURL = JSON.parse(JSON.parse(JSON.stringify(data))).blogURL
			//获取博客列表的URL地址
			superagent
				.get(this.baseURL)
				.then((res) => {
					// console.log(res.text)
					const $ = cheerio.load(res.text)
					var list = $('.article-list').find('.article-item-box')
					list.each(function () {
						// console.log(this)
						var href = $(this).find('a').attr('href')
						_this.blogs.push(href)
					})
					resolve(_this.baseURL)
				})
				.catch((e) => {
					console.log(e)
				})
		})
	}
    // 访问
	visit() {
		this.blogs.map((item, index) => {
			superagent
				.get(item)
				.then((res) => {
					console.log('success')
				})
				.catch((e) => {
					console.log(e)
				})
		})
	}
}

var spider = new Spider()
spider.init().then(() => {
	setInterval(() => {
		spider.visit()
	}, 10000)
})

Python爬虫可以模拟用户登录,以获取需要登录后才能访问的页面信息。模拟登录的步骤可以总结为以下几个步骤: 1. 找到登录请求:首先,需要到登录页面的请求链接,可以通过查看网页源代码或使用开发者工具来获取该信息。 2. 分析表单:在登录页面中,通常会有一个表单用于输入用户名和密码。需要分析该表单的结构,包括表单的URL、请求方式(POST或GET)、表单字段的名称等。 3. 提取加密信息:有些网站会对登录信息进行加密,例如使用RSA或MD5等算法。如果加密信息可被破解,可以提取加密信息并进行解密。如果无法破解,可能需要放弃模拟登录。 4. 构造表单访问:使用Python的网络请求库(如requests)发送一个带有正确登录信息的表单请求。在请求中,需要将用户名和密码以及其他必要的登录信息作为表单数据发送给服务器。 通过以上步骤,可以实现Python爬虫模拟用户登录。具体实现的代码和方法可以参考相关的教程和文档,如参考链接所示的CSDN博客文章[2]。请注意,在进行爬虫时,应遵守相关网站的服务条款和法律法规,确保合法合规地进行数据获取。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [python爬虫——模拟登陆](https://blog.csdn.net/qq_16121469/article/details/127718925)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *3* [python爬虫基础(7:模拟登录)](https://blog.csdn.net/Jeeson_Z/article/details/81457337)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值