- 博客(18)
- 收藏
- 关注
原创 js逆向实践3——百度翻译接口(旧版)
transtype有三种:realtime,enter,translang,这里其实也可以写死。可以发现:window有很多键值,而我们需要的window[d]其实就是其中的gtk值。这就好办了,就是在请求数据之前先请求一次页面拿到这个值即可。simple_means_flag是常数3;动态变化的参数有三个:sign,token。from 和 to是翻译语言和目标语言;
2024-05-26 15:43:15
1190
原创 js逆向实操2(犀牛数据解密)
第一篇文章中企名片的数据带有关键字,使得我们能够非常方便的定位到js文件中去。可以看出是第二个u未定义,即:Object(u.b)。方法同上,此处省略。因为每次网页会发送多个接口,可能会需要多次调试才能拿到我们需要的数据。先断点并手动运行到此处,在控制台试着输出:JSON.parse(y)再到控制台输出得到Object(u.a)并将其添加到我们的js文件中。
2024-05-11 15:33:35
1088
原创 js逆向实操1(爬取企名片数据)
在学会基本的爬虫操作后,网页抓取之路并不顺畅,因为js的盛行,现在大多数数据都被加密了,遂开始了逆向的学习。在点击加载更多之后注意到recommendeditemlist这个包,点击预览可以看到其中encrypt_data这个数据,这个就是加密过后的企业数据。一共有6个结果,我们需要的是一个由加密方法包裹encrypt_data的结果,由此可以找到是最后一个,并在此设置断点。点击进去来到方法的定义处进行复制,创建一个js文件夹并将其粘贴进去,这是解密的主函数。报错显示o没有被定义,现在来填补o。
2024-05-09 20:47:24
934
原创 os库使用笔记
如获取文件/文件夹名,文件/文件夹绝对路径,是否为文件夹,是否为文件,以及属性。根据属性,还可以提取文件的大小(单位为kb,文件夹大小为0kb)、最近访问时间、最近修改时间、window系统下的创建时间、linux系统下的创建时间等。第一个为文件夹绝对路径,第二个为子文件夹的列表,第三个为根目录下所有文件的列表。2.os.chdir(path) 更改当前路径,更改后,默认路径为更改后的路径。创建路径(文件夹),若该路径已存在,则报错。循环遍历top路径下的所有文件,该路径下层的文件及文件夹。
2024-05-06 14:33:18
441
原创 抓取陷阱的避开
解决方法,在填写时对字段属性进行排查,也可以使用selenium的is_displayed()方法来检查某元素是否可见。即对某些字段值的属性设为用户不可见,仅浏览器可以识别:type = 'hidden'如果你在提交表单的时候提交了隐藏字段值,将会被视作机器人。其他的参数可以视情况进行删减与更改。二. 关于cookie。
2024-05-04 08:17:30
735
原创 selenium使用笔记
但隐式等待是全局性的,即运行过程中,如果元素可以定位到,它不会影响代码运行,但如果定位不到,则它会以轮询的方式不断地访问元素直到元素被找到,若超过指定时间,则抛出异常。单击右键:ActionChains(driver).context_click(button).perform()双击:ActionChains(driver).double_click(button).perform()file_path = Path(Path.cwd(), '上传下载.html')
2024-05-02 18:09:12
1020
1
原创 表单提交、cookie获取--穿越登录窗口进入页面
cookie是跟踪用户是否登录的状态信息,在登陆一次后即可获得cookie,下次即可携带cookie直接访问网页,绕开登录。由Session构造的session对象非常给力,会持续跟踪对话中的cookie, header甚至是http协议的信息。url不是指表单所在页面的url,而是跳转页面的(或者说是表单处理的页面),可以通过查看表单的action属性的值得到。name指输入字段名称,在表单源码中可以看到,一定要注意不能错。1.用requests跟踪cookie。key即你要提交的信息。
2024-05-01 13:19:12
121
原创 xpath使用笔记
from lxml import etreehtml_doc = requests.get(url).text()page = etree.HTML(html_doc)一些常用运算符
2024-04-30 14:36:36
235
原创 使用selenium爬取qq空间所有说说文字内容
以document.body.scrollHeight为参数来判断是否翻到了底面(因为在没翻到底面时,该参数会不断变化)。每执行一次翻页操作就会提取一次文本,用一个集合来筛出重复性的,最终写入txt文档。思路就是:执行javascript代码实现向下翻的操作以克服动态加载的页面,
2024-04-29 11:02:00
358
原创 python爬取淘宝数据
在网上看到很多大佬写的程序,要么是时间太早要么就是配置太复杂,所以自己研究手搓了一套。暴力简单但肥肠的好用,可以爬取指定搜索词,指定页数的商品信息。
2024-04-27 22:25:56
1019
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人