![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫学习
此处记录的是我的爬虫学习
请不要在网络上随地大小便!
加油呀!
展开
-
python爬虫之反爬与反反爬技术
反爬技术1、headers请求头协议可以在每个网页的这里找到:这里的Request Headers就可以找到我们需要加上的请求头信息,使用requests模块一般情况下加上’User-Agent’就行了。下面对请求头信息里的几个部分做一个简单介绍User-Agent一种身份标识,服务器可以通过它了解到发起请求的是否是浏览器,为了绕过反爬我们通常将程序中的此参数改成对应浏览器的。比如我的google浏览器的:User-Agent: Mozilla/5.0 (Windows NT 10.0; Win原创 2021-02-19 09:16:09 · 612 阅读 · 0 评论 -
python爬虫使用bs4进行页面解析发现页面源码信息不完整
经过咨询发现是该网站具有反爬机制,于是加了headers的属性就行啦。一开始只用了User-Agent,后来加上cookie就行了。两个数据都是在对应源码页面复制的位置在这里:原创 2021-02-18 23:59:04 · 1023 阅读 · 0 评论 -
python爬虫之学习记录
原创 2021-01-29 22:01:51 · 54 阅读 · 0 评论 -
python爬虫之xpath学习记录
ps:隐约记得在安装环境的过程中遇到过一些问题,但是忘记做记录了啊啊啊啊~真是悔不当初原创 2021-01-29 22:00:19 · 57 阅读 · 0 评论 -
正则表达式学习
原创 2021-01-29 17:48:49 · 42 阅读 · 0 评论