网页爬虫
文章平均质量分 93
JermeryBesian
坚持让改变发生
展开
-
Python爬取网页时的#号是为了区分什么
‘#’在html中代表的是锚点,用来进行页面内或页面间之间的跳转,是网页制作中超级链接的一种,又称为命名锚点。命名锚记像一个迅速定位器一样是一种页面内的超级链接,运用相当普遍。1.在页面内设置锚点可以方便页面不同部分之间的跳转。比如一篇很长的文章,你想按分段精确来看,那就可以用到锚点了。 例如: <a href="#study">跳转到study</a>———跳转到页面内某study处2.在不原创 2017-05-25 00:05:44 · 857 阅读 · 0 评论 -
BeautifulSoup中一些函数的用法归纳
BeautifulSoup作为一个强大的从HTML或则XML文件中提取数据的Python库,它能通过解析文档为用户提供需要抓取的数据。同时,它可以很好的处理不规范标记并生成剖析树(parse tree)并提供简单又常用的导航(navigating),搜索以及修改剖析树的操作。它可以大大节省你的编程时间。 接下来归纳一下之前在看书过程中发现的一些不懂的对数据爬取得方法先给出官方文档:http://b原创 2017-05-25 17:21:01 · 4666 阅读 · 0 评论 -
Python中Requests模块的异常值处理
在我们用Python的requests模块进行爬虫时,一个简单高效的模块就是requests模块,利用get()或者post()函数,发送请求。但是在真正的实际使用过程中,我们可能会遇到网络的各种变化,可能会导致请求过程发生各种未知的错误导致程序中断,这就使我们的程序不能很好的去处理错误。所以为了使我们的程序在请求时遇到错误,可以捕获这种错误,就要用到try…except方法,以及了解requ...原创 2018-02-08 14:07:28 · 55543 阅读 · 0 评论 -
Python网络爬虫封锁限制的几种方法
在爬虫时,我们不可避免的会遇到网页的反爬封锁,所以就有了爬虫的攻防,在攻和守之间两股力量不断的抗衡。接下来就讲讲我在爬虫时遇到的一些问题,以及解决的方法。第一种:封锁user-agent破解user-agent时浏览器的身份标识,网站就是通过user-agent来确定浏览器类型的。当我们在请求时发现,通过get函数发送的请求返回的内容与在PC浏览器检查的不一样。就可以首先考虑在get函...原创 2018-02-08 15:07:24 · 8717 阅读 · 1 评论