自学python爬虫的日子_自学PYTHON爬虫阶段总结

最新推荐文章于 2024-05-01 09:00:54 发布

weixin_39608134

最新推荐文章于 2024-05-01 09:00:54 发布

阅读量58

点赞数

文章标签：自学python爬虫的日子

自学python爬虫有大概半个月时间了吧

先是了解了一下爬虫的基本结构和流程

然后学习了各种库和正则的知识

这里要特别注意一下，学习正则开始的时候会很难，因为这个玩意根本就不是给人类用的，正则表达式开始的时候是一个神经科学家发明用来研究人类行为和神经反射的时候的模式所以他是反人类的

不过到后面会发现有很大的用处，因为正则不只存在与Python一个语言里面，很多语言里面都有，所以是一个绕不开的项目。

开始建议用BS4和Scrapy 要不然会严重打击自信心的

爬虫其实是属于数据挖掘的领域。不过用来入门Python是不错的选择

我个人是不建议参加学习班的因为一个行业最重要的就是自学能力，如果不是因为爱好只是因为莫名的虚荣或者金钱去学习这样是走不远的

算是一个阶段性的总结吧

基本的爬虫算是了解了

以后会开始

多线程

异步

以及反爬的学习

1、要爬取某个页面的文件，必须用urllib.request.urlopen打开页面的连接，并用read方法读取页面的html内容

2、要爬取某些具体内容，必须分析该页面对应的html代码，找到需爬取内容所在位置的标签，利用正则表达式获取标签

3、浏览器伪装：为了防止有些网站拒绝爬虫，我们需要伪装成浏览器来实现页面的爬取，即需要添加头部文件来伪装成浏览器

header={'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.235'}

4、规范：爬取的内容尽量写入到某个文件，如果直接打印在控制台，影响阅读效果；

weixin_39608134

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
自学python爬虫的日子_自学PYTHON爬虫阶段总结

自学python爬虫有大概半个月时间了吧先是了解了一下爬虫的基本结构和流程然后学习了各种库和正则的知识这里要特别注意一下，学习正则开始的时候会很难，因为这个玩意根本就不是给人类用的，正则表达式开始的时候是一个神经科学家发明用来研究人类行为和神经反射的时候的模式所以他是反人类的不过到后面会发现有很大的用处，因为正则不只存在与Python一个语言里面，很多语言里面都有，所以是一个绕不开的项目。开始建议...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。