网络爬虫
stephen@
放羊的牧羊犬
展开
-
网络编程Socket
什么是TCP/IP、UDP Socket是什么 python socket 超时设置 “errno10054” 什么是TCP\IP、UDP TCP(Transmission Control Protocol 传输控制协议)是一种面向连接的、可靠的、基于字节流的传输层通信协议,由IETF的RFC 793定义。 IP英文Internet Protocol的缩写,意思是“网络之间互连的协议”,也...原创 2019-04-12 21:44:09 · 2425 阅读 · 0 评论 -
爬虫与反爬虫
什么是爬虫和反爬虫? 当我们在浏览器中输入一个url后回车,后台会发生什么? 常见的反爬虫机制有哪些? 破解反爬虫机制的几种方法? 爬取需要注意哪些问题? 什么是爬虫和反爬虫? • 爬虫:使用任何技术手段,批量获取网站信息的一种方式。 • 反爬虫:使用任何技术手段,阻止别人批量获取自己网站信息的一种方式。 从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。这里只讨论数据采集部分 当我们在浏...原创 2019-05-17 16:06:50 · 960 阅读 · 0 评论 -
Ajax数据爬取-爬虫篇
前言: 有时候我们用requests抓取页面的时候,得到的结果可能和在浏览器中看到的不一样:在浏览器中可以看到正常显示的页面数据,但是使用reuqest的到的结果并不一样。这是因为request获取的都是原始的HTML文档,而浏览器中的页面则是经过JavaScript处理数据后生成的结果,可能是通过Ajax加载的,可能是包含的HTML文档中的,也可能是经过JavaScript和特定的算法计算后生成...转载 2019-07-25 18:39:52 · 1815 阅读 · 1 评论 -
Selenium-鼠标操作
鼠标操作 鼠标操作需要使用webdriver下的ActionChains类: from selenium.webdriver import ActionChains 鼠标操作可分为三类:鼠标移动、鼠标拖拽、鼠标点击 element = driver.find_element(By.name, '按钮') #鼠标点击 ActionChains(driver).click(element).perf...原创 2019-08-01 14:04:57 · 413 阅读 · 0 评论