python爬虫要点

2020年2月18-2020年2月22日学习五天python爬虫,列出要点如下
1、爬取html文件的内容注意要把换行符去掉,因为正则表达式没有代表‘\n’的符号
html=re.findall(’\n’,’’,html)
2、如果html文件没有下载在本地,是不能直接使用open读取的
with open(‘http:\…’,‘r’,encoding=‘utf-8’) as f
这句是会报错的,并不会从网站下载一个链接
正确的用法是用使用requests库打开html
requests.get(url)
3、re库比lxml.etree写起来代码要多一些,但是re库对注释的内容也能够检索,而lxml.etree对注释的内容无法检索。对html文件内容进行注释也是一种反扒策略。
4、模拟登陆会使用cookie,模拟浏览器时会使用user-agent.
5、每次发送request不要使用相同的user-agent,否则会被视为爬虫并被封锁IP。
6、反爬90%会针对cookie入手,爬虫没有办法提供很多个实际用户,因此这一点比较难处理。解决方法是,使用chrome浏览器无痕模式时候提供的cookie。无痕模式时用户无需提供实际账号即可登录网站。
7、阿里反爬原理???爬虫装饰器???

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值