![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python网络爬虫
文章平均质量分 95
JermeryBesian
坚持让改变发生
展开
-
Python爬虫实战: 多进程爬取百度百科页面超链接
Python爬虫实战: 多进程爬取百度百科页面超链接最近因为需要,爬取了实体知识库里每个实体在百度百科页面下的所有超链接内容,这部分工作结束后,想着既是总结也是分享,把这部分工作和代码记录下来,对于刚想学爬虫的可以了解爬虫过程跑一下代码github,代码并不复杂只是requests的页面爬取,写得不好,也欢迎各位大佬指正和讨论。抓取思路、流程代码分析确定爬取需求写一个爬虫的话,首先是要明确自己的需求,即打开一个页面,知道自己想要抓取下来哪些内容,然后再去观察网页的源码,来分析如何通过html/原创 2020-09-24 16:35:10 · 2845 阅读 · 0 评论 -
爬取Ajax动态加载和翻页时url不变的网页+网站案例
最近在爬取一个网页的时候,遇到了需要对对多页表格的爬取,但是在对表格进行翻页的时候,url的地址并不会改变,而且网页的源代码中只有当前加载页出现的表格内容,并没有其余页所对应的<a href = ''>的内容,所以一开始纠结了很久,如何对这一类表格,或者说是对这一类在希望获取信息时无法获取跳转到其他页面的条件的情况进行爬取。后来查了很多知道,知道这是一种ajax书写的动态页面,ajax通过在后台与服原创 2018-01-30 15:13:37 · 35268 阅读 · 6 评论 -
如何用Selenium+Chrome模拟登陆并获取Cookie值
我们在Python做网络爬虫的时候,对于一些页面信息的爬取,很多信息网页会提示说需要登陆才能查看更多信息,这个时候我们就逃不开需要模拟登陆了,这里我们就可以利用上自动化测试神奇Selenium来模拟我们的鼠标、键盘进行登陆。这里我用我最近刚刚完成的一个网页来做讲解,也算是一种记录了。 本篇分两部分讲,第一部分介绍cookie值,第二部分介绍Selenium的相关方法以及操作第一部分:Cook...原创 2018-02-08 13:38:44 · 11925 阅读 · 0 评论 -
Python中Requests模块的异常值处理
在我们用Python的requests模块进行爬虫时,一个简单高效的模块就是requests模块,利用get()或者post()函数,发送请求。但是在真正的实际使用过程中,我们可能会遇到网络的各种变化,可能会导致请求过程发生各种未知的错误导致程序中断,这就使我们的程序不能很好的去处理错误。所以为了使我们的程序在请求时遇到错误,可以捕获这种错误,就要用到try…except方法,以及了解requ...原创 2018-02-08 14:07:28 · 55260 阅读 · 0 评论 -
Python网络爬虫封锁限制的几种方法
在爬虫时,我们不可避免的会遇到网页的反爬封锁,所以就有了爬虫的攻防,在攻和守之间两股力量不断的抗衡。接下来就讲讲我在爬虫时遇到的一些问题,以及解决的方法。第一种:封锁user-agent破解user-agent时浏览器的身份标识,网站就是通过user-agent来确定浏览器类型的。当我们在请求时发现,通过get函数发送的请求返回的内容与在PC浏览器检查的不一样。就可以首先考虑在get函...原创 2018-02-08 15:07:24 · 8605 阅读 · 1 评论