- 博客(10)
- 资源 (33)
- 问答 (1)
- 收藏
- 关注
原创 2019-12-31 爬网页15-js逆向入门(Base64编码和解码应用)
本例引用自https://blog.csdn.net/Mr__lqy/article/details/88753324,只适用于初学者,因为只需要会打断点追踪就可以了。目标从网站获取视频链接,然后下载。我这里使用的浏览器是chrome。先打开网页链接在开发者工具中找“Media”,这里可以看到一个请求地址http://v3-default.ixigua.com/1232365664892...
2019-12-31 17:46:09 569
原创 2019-12-30 爬网页14-Base64编码与解码
很多网站js代码中都用了Base64编码和解码。下面这段就是摘自某网站的js代码define('base64', function(require, exports, module) { var object = typeof exports != 'undefined' ? exports : window, chars = 'ABCDEFGHIJKLMNOPQRST...
2019-12-30 14:15:54 217
原创 2019-12-21 爬网页13-字体反爬(woff,fontTools,sklearn(knn))
在爬网站时候,有时会遇到类似以下代码<span class="stonefont">.</span>然而网页上显示的是数字’9.5’,这其实是一种反扒机制–字体反爬。字体反爬,就是网站将一些关键字替换为网站自己的字体,这样在网页上字体会正常显示,但是当爬取下来的时候,经过字体加密的字符都是乱码的,无法查看。应对这种反...
2019-12-21 12:07:00 621
原创 2019-12-18 爬网页12-简单滑块验证(selenium模拟-click_and_hold和release方法)
上图就是一个典型的滑块应用。出现这个的目的就是为了防止恶意攻击。不过对于爬网站确实增加了一点麻烦。现在一般都是通过selenium来模拟滑块验证。selenium中提供了ActionChains类来处理鼠标事件。这个类中有2个方法和滑块移动过程相关click_and_hold():模拟按住鼠标左键在源元素上,点击并且不释放release():松开鼠标按键字面意思就可以理解这2个函数...
2019-12-18 15:11:09 4292 1
原创 2019-12-14 爬网页10-多进程下载漫画网站图片(requests+lxml+fake_useragent+multiprocessing)
想看漫画,但是不知道为什么网页上不能显示图片。没办法,只好把漫画下载下来慢慢看了。这个网站结构很简单。总目录–>章节–>页总目录https://www.dagumanhua.com/manhua/3883/章节每个章节链接就在上面链接中<div class="cy_plist" id="play_0"> <ul> ...
2019-12-14 21:53:41 5065
原创 2019-12-13 爬网页9-研究Boss直聘(selenium+动态ua+requests+bs4)
Boss直聘是学习爬网页不错的目标对象。尝试连接首先,它会验证cookie,通过selenium获得cookie是有反爬措施的。具体参见https://blog.csdn.net/weixin_42555985/article/details/103479002。获得cookie后,就可以链接过去获得网页了。这里最好还是用动态ua,免得再被反爬def get_ua(): firs...
2019-12-13 13:40:11 375
原创 2019-12-10 爬网页8-绕过Selenium检测
爬Boss直聘网站https://www.zhipin.com/job_detail/?query=js&city=101020100&industry=&position=,发现无法获得信息。检查以后发现原来是要验证cookie的,关键就是__zp_stoken__字段。具体过程回头再说。但是在浏览器里直接打开这个链接是正常的。现在思路就是通过seleniumm模拟...
2019-12-10 17:26:30 1421
原创 2019-12-7 爬网页7-调用百度地图api应用
在爬二手房网站时候,有个需求,要获得房子的经纬度,以及周围的公共设施。这个可以通过调用百度api应用接口来实现。申请密钥(AK)百度地图API是为开发者提供http/https接口,即开发者通过http/https形式发起检索请求,获取返回json或xml格式的检索数据。根据百度的介绍,它的地图api接口可以提供以下功能定位轨迹路线规划路况地图导航搜索要想调用接口,那就...
2019-12-08 09:02:11 490
原创 2019-12-6 爬网页6-request模块+get请求+正则筛选
继续研究爬网页,这次的网站是https://www.yuanjisong.com/job/shanghai这是一个纯静态的网页,请求方式是get,所以直接使用request模块就行了。每个任务的相关html代码如下<div class="weui_panel weui_panel_access weui_panel_access_adapt db_adapt margin-top-2 ...
2019-12-06 16:49:59 161
原创 2019-12-3 《网络安全法》学习
背景《网络安全法》于2016年11月7日发布,自2017年6月1日起施行。国际上的同类法规有日本,2014年11月,《网络安全基本法》美国,2015年底,《网络安全法案》欧盟,2019年3月,《网络安全法案》重点《网络安全法》包含7章79条,重点有:1.明确了网络空间主权原则第一条:为了保障网络安全,维护网络空间主权和国家安全2.推动网络安全等级保护制度第三十一条:...
2019-12-03 19:22:40 525
MSTG手册-英文版
2020-04-26
OWASP_MASVS-v1.2(英文版)
2020-04-24
获取猿急送页面数据-代码
2019-12-06
吴恩达-C5 序列模型-w2 自然语言处理与词嵌(课后编程2-Emojifier-V2模型)
2021-01-17
吴恩达-C5 序列模型-w2 自然语言处理与词嵌(课后编程2-Emojifier-V1模型)
2021-01-17
吴恩达-C5 序列模型-w2 自然语言处理与词嵌(课后编程1-Operations on word vectors 词向量运算
2021-01-10
吴恩达第4课第2周编程作业1 Keras - Tutorial - Happy House代码。
2020-10-17
吴恩达第4课第1周编程作业Convolutional Neural Networks: Step by Step代码。
2020-10-03
TA创建的收藏夹 TA关注的收藏夹
TA关注的人