problem

最新推荐文章于 2019-05-10 13:54:00 发布

blerli

最新推荐文章于 2019-05-10 13:54:00 发布

阅读量140

点赞数

文章标签： problem

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38859557/article/details/88896639

版权

problem 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1：关于怎样判别最后一个item的问题：

可以通过start_url 中的最后一条进行判断，如果，start_url 中的url只是其实的，你可以先拿到最后一条的最后一页的那一页页号，然后在spider中声明一个类变量，先设置未False ，然后在条件触发是设置成为True，最后在pipeline中判断。

2：关于构建异步数据处理的带来的数据存储滞后问题:

需要在spider 关闭的时候设置一个请求延迟，这样是最理想的，首先可以达到抓一定时间，停止的目的，其次能够简化代码，如果是再添加一个变量，代码会变得复杂一点，但是也不是特别复杂；

3：如何在pipeline中实现异步发送请求。

之前想得是通过scrapy中自带得请求方式（yield scrapyFormReqeusts)，只不过一直没有做；

4：scrapy-redis 内存丢数据问题；

在用scrapy-redis 存储爬虫得爬取url的时候，老是丢数据，不知道是配置问题，还是服务器配置太低问题（1g,2HZ)还跑着一个爬虫) ,最大的怀疑是爬虫跑起来之后导致系统资源紧张，然后redis内存就丢数据了；

5：还有一个redis问题是关于持久化的问题：

查看redis 的log日志发现在数据持久化的时候一直出现，read-only file system

6:验证码识别问题：

简单的验证码可以通过模仿然后通过opencv库或者是pillow库画出相同的验证码，然后通过cnn进行训练，

但是超级简单的可以通过pillow进行一部分的降噪，然后直接用pytesseract 进行识别，识别的准确率还很高；

但是要注意一个参数是关于亮度的参数；

7：任何工具（编程语言，软件，框架）都要和实际条件相结合，如果现有条件有限，可以用别的东西代替，没必要一定要用。

8：关于js逆向的问题：

其实就是会写js代码，看懂js代码，找到相应的js代码所在的地方。前端的参数加密请求一定就在某个js文件中，（也可能不是js文件）

9:逆向问题：js逆向和安卓逆向，以及苹果逆向，涉及到三个终端的问题；

10：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
problem

1：关于怎样判别最后一个item的问题：可以通过start_url 中的最后一条进行判断，如果，start_url 中的url只是其实的，你可以先拿到最后一条的最后一页的那一页页号，然后在spider中声明一个类变量，先设置未False ，然后在条件触发是设置成为True，最后在pipeline中判断。2：关于构建异步数据处理的带来的数据存储滞后问题:需要在spider 关闭的...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。