网页解析
文章平均质量分 54
random numbers
代码爱好者,憧憬踏入互联网的 大龄-非职业-代码搬砖人。
展开
-
文档下载器制作
一、文档这里的文档包括:百度文档、豆丁文档、doc88等,理论上,只有可以使用浏览器打开或者“阅读”的文档,都是可以下载或者“保存”的。二、内容保存文档保存大体分为两类,一类是文字内容的保存,前提是原始文档是支持文字形式读取的,比如本身就是word格式(doc或docx扩展名),另一种就是图片或者转换、合并为PDF,本质上还是图片,所有文档都可以以图片格式保存。三、实现思路首先,需要加载文档,显示所有的页面,所以需要操作浏览器,执行点击、页面滚动等;其次,对页面元素进行快照(screenshot原创 2021-06-01 23:33:57 · 333 阅读 · 0 评论 -
前端加密与解密
前端加密与解密前言本文章仅用于记录平时安全测试中所遇到的前端加密和解密,有些内容与爬虫遇到的反爬措施类似,可参照处理。常见加密所用算法前端常见的加密(哈希)算法:MD5,AES,Rsa,sha1等;当然这些算法也有被魔改的变态版本,通常可以根据算法中的常见函数判断算法是属于哪一种。对于属于简单编码类的base64及其同类如base32或十六进制之类的不在本次讨论范围。MD5:待加密明文($pass),盐($salt)值(可选),密文长度32位或16位,加密形式多种,包括:md5(md5($pass原创 2021-05-09 04:19:24 · 568 阅读 · 1 评论 -
网页内容解析实践
网页内容解析实践之抖音用户数据解码网页解码简述很多网站为了防止爬虫对站内数据进行爬取,对网页内容进行特殊处理,例如对字符进行自定义编码,包括对数字(例如猫眼网站的票房数据)的“加密”,以及对中文字符(例如某些小说网站)的重新编码,这时,当爬虫得到网页内容时,不能够直接获取或者识别到目标信息,在一定程度上起到了”反爬“的效果。例如 抖音用户页面信息如下:对于作品3对应的页面源码查看...原创 2019-09-16 05:09:26 · 1375 阅读 · 0 评论 -
爬虫实践之非静态图片获取
关于非静态图片的说明先说下静态图片,就是指其url地址固定不变,同时图片内容固化的图片,当然是在一定时间段内固定不变的,不能是这一秒图片内容为a,下一秒内容就是b了。如网站logo之类的图片,短期内图片内容是固定的,例如百度的网站标志地址:https://ss0.bdstatic.com/5aV1bjqh_Q23odCf/static/superman/img/logo_top_86d58ae1...原创 2019-09-29 20:20:40 · 998 阅读 · 0 评论 -
滑动验证码自动化实现(1)
验证码分类验证码,主要是用于区分 人 与 机器人(robot)的行为而采取的防范自动化的产物,其类型可以分为 识别型 和 行为类验证码。识别类验证码包括:若干个单一种类的字符,如大小写字母、数字、中文,有可能是以上一种以上的组合形式出现,为了增加识别的难度,往往采用变形字符、干扰线、点、模糊背景等策略,早期验证码的背景为单一的白色,且字符分布在一行,而现在的验证码图片中随机分布若干字符,字...原创 2019-10-04 02:30:15 · 9510 阅读 · 2 评论