爬虫 crawl

最新推荐文章于 2024-03-23 09:59:01 发布

steady_pace

最新推荐文章于 2024-03-23 09:59:01 发布

阅读量1.1k

点赞数

分类专栏：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/steady_pace/article/details/48319707

版权

爬虫专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1:明白爬虫的本质，最最核心，简单的逻辑原理
抓网页，解析网页。。。在此基础上，可以通过各种技术提升性能。（如：集群，多线程。采用框架等）

通过http请求，返回的整个html网页就是个字符串，就是个字符串，就是个字符串！！！！！（解决了我长时间的困惑）
然后，针对这个字符串进行正则表达式的模式匹配。

所谓的javascript技术，css等，也就是在字符串中以某种模式存在。不用去烦心这个。

动态登录，模拟登录，都是关于 http请求的。

2：学习并且学到点正则表达式。（解决了，不知道如何入手学习正则表达式。）
开了个头，自己慢慢学下去。

3:通过爬虫，学习python的基础知识

4：爬虫做的深入一些，就设计到多线程，集群等

5：Scrapy框架，就是为了解决这些性能问题的。。。所以说，还是应该先学基础原理，再去学习框架。要不然，就像我以前一样，越往后越来越找不到方向，云里雾里，很不踏实的感觉。

未完，待续。。。。。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。