![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
1998kang
转载一些平时看到的文章,方便要用的时候寻找
展开
-
常见反爬虫机制
在采集网站的时会遇到一些比数据显示在浏览器上却抓取不出来更令人沮丧的事情。也许是向服务器提交自认为已经处理得很好的表单却被拒绝,也许是自己的 IP 地址不知道什么原因直接被网站封杀,无法继续访问。原因可能是一些最复杂的 bug,也可能是这些 bug 让人意想不到(程序在一个网站上可以正常使用,但在另一个看起来完全一样的网站上却用不了)。最有可能出现的情况是:对方有意不让爬虫抓取信息。网站已经把你...转载 2019-06-27 17:28:23 · 3819 阅读 · 0 评论 -
静态网页的爬虫尝试
去年写的一个简单爬虫, 爬去全书网的盗墓笔记的部分章节, 代码还是比较简单的,但是现在看来还有很多小问题没处理 ,鉴于只是第一次尝试,保留下代码 以后看看回想思路比较合适,就不再去完善代码了。 import requestsfrom bs4 import BeautifulSoupclass Download(object):def __init__(self): self...原创 2019-06-27 18:07:51 · 244 阅读 · 0 评论 -
TCP/IP基础知识(一)
TCP/IP含义:有人可能会认为TCP/IP是两种协议。实际生活中基本确实指这两种协议,然和很多系情况下,它只是利用IP进行通信时所需要用到的协议群的统称。具体来说 ,IP或ICMP、TCP或UDP、TELNET或FTP、以及HTTP等都属于TCP/IP的协议,因为他们和TCP或IP关系紧密,所以TCP/IP经常泛指他们。因此有时称TCP/IP为网际协议族。互联网结构:互联网中的每个...原创 2019-07-03 21:48:47 · 249 阅读 · 0 评论