python爬虫要点

最新推荐文章于 2023-02-13 17:50:06 发布

qq_41780800

最新推荐文章于 2023-02-13 17:50:06 发布

阅读量408

点赞数

分类专栏：科学

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41780800/article/details/104406592

版权

科学专栏收录该内容

9 篇文章 0 订阅

订阅专栏

2020年2月18-2020年2月22日学习五天python爬虫，列出要点如下
1、爬取html文件的内容注意要把换行符去掉,因为正则表达式没有代表‘\n’的符号
html=re.findall(’\n’,’’,html)
2、如果html文件没有下载在本地，是不能直接使用open读取的
with open(‘http:\…’,‘r’,encoding=‘utf-8’) as f
这句是会报错的，并不会从网站下载一个链接
正确的用法是用使用requests库打开html
requests.get(url)
3、re库比lxml.etree写起来代码要多一些，但是re库对注释的内容也能够检索，而lxml.etree对注释的内容无法检索。对html文件内容进行注释也是一种反扒策略。
4、模拟登陆会使用cookie，模拟浏览器时会使用user-agent.
5、每次发送request不要使用相同的user-agent，否则会被视为爬虫并被封锁IP。
6、反爬90%会针对cookie入手，爬虫没有办法提供很多个实际用户，因此这一点比较难处理。解决方法是，使用chrome浏览器无痕模式时候提供的cookie。无痕模式时用户无需提供实际账号即可登录网站。
7、阿里反爬原理？？？爬虫装饰器？？？

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫要点

2020年2月18-2020年2月22日学习五天python爬虫，列出要点如下1、爬取html文件的内容注意要把换行符去掉,因为正则表达式没有代表‘\n’的符号html=re.findall(’\n’,’’,html)2、如果html文件没有下载在本地，是不能直接使用open读取的with open(‘http:\…’,‘r’,encoding=‘utf-8’) as f这句是会报错的，...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。