1:关于怎样判别最后一个item的问题:
可以通过start_url 中的最后一条进行判断,如果,start_url 中的url只是其实的,你可以先拿到最后一条的最后一页的那一页页号,然后在spider中声明一个类变量,先设置未False ,然后在条件触发是设置成为True,最后在pipeline中判断。
2:关于构建异步数据处理的带来的数据存储滞后问题:
需要在spider 关闭的时候设置一个请求延迟,这样是最理想的,首先可以达到抓一定时间,停止的目的,其次能够简化代码,如果是再添加一个变量,代码会变得复杂一点,但是也不是特别复杂;
3:如何在pipeline中实现异步发送请求。
之前想得是通过scrapy中自带得请求方式(yield scrapyFormReqeusts),只不过一直没有做;
4:scrapy-redis 内存丢数据问题;
在用scrapy-redis 存储爬虫得爬取url的时候,老是丢数据,不知道是配置问题,还是服务器配置太低问题(1g,2HZ)还跑着一个爬虫) ,最大的怀疑是爬虫跑起来之后导致系统资源紧张,然后redis内存就丢数据了;
5:还有一个redis问题是关于持久化的问题:
查看redis 的log日志发现在数据持久化的时候一直出现,read-only file system
6:验证码识别问题:
简单的验证码可以通过模仿然后通过opencv库或者是pillow库画出相同的验证码,然后通过cnn进行训练,
但是超级简单的可以通过pillow进行一部分的降噪,然后直接用pytesseract 进行识别,识别的准确率还很高;
但是要注意一个参数是关于亮度的参数;
7:任何工具(编程语言,软件,框架)都要和实际条件相结合,如果现有条件有限,可以用别的东西代替,没必要一定要用。
8:关于js逆向的问题:
其实就是会写js代码,看懂js代码,找到相应的js代码所在的地方。前端的参数加密请求一定就在某个js文件中,(也可能不是js文件)
9:逆向问题:js逆向和安卓逆向,以及苹果逆向,涉及到三个终端的问题;
10: