爬虫 crawl

1:明白爬虫的本质,最最核心,简单的逻辑原理
抓网页,解析网页。。。在此基础上,可以通过各种技术提升性能。(如:集群,多线程。采用框架等)

通过http请求,返回的整个html网页就是个字符串,就是个字符串,就是个字符串!!!!!(解决了我长时间的困惑)
然后,针对这个字符串进行正则表达式的模式匹配。

所谓的javascript技术,css等,也就是在字符串中以某种模式存在。不用去烦心这个。

动态登录,模拟登录,都是关于 http请求的。

2:学习并且学到点 正则表达式。(解决了,不知道如何入手学习正则表达式。)
开了个头,自己慢慢学下去。

3:通过爬虫,学习python的基础知识

4:爬虫做的深入一些,就设计到多线程,集群等

5:Scrapy框架,就是为了解决这些性能问题的。。。所以说,还是应该先学基础原理,再去学习框架。要不然,就像我以前一样,越往后越来越找不到方向,云里雾里,很不踏实的感觉。

未完,待续。。。。。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值