爬虫
qq_16069927
这个作者很懒,什么都没留下…
展开
-
爬虫与反爬虫的博弈
爬虫与发爬虫的厮杀,一方为了拿到数据,一方为了防止爬虫拿到数据,谁是最后的赢家?重新理解爬虫中的一些概念爬虫:自动获取网站数据的程序反爬虫:使用技术手段防止爬虫程序爬取数据误伤:反爬虫技术将普通用户识别为爬虫,这种情况多出现在封ip中,例如学校网络、小区网络再或者网络网络都是共享一个公共ip,这个时候如果是封ip就会导致很多正常访问的用户也无法获取到数据。所以相对来说封ip的策略不是特...转载 2020-04-23 10:00:05 · 167 阅读 · 0 评论 -
获取当前页面的所有链接的四种方法对比(python 爬虫,包含 selenium 获取的方式)
'''得到当前页面所有连接'''import requestsimport refrom bs4 import BeautifulSoupfrom lxml import etreefrom selenium import webdriverurl = 'http://www.ok226.com'r = requests.get(url)r.encoding = 'gb...原创 2019-12-14 14:10:52 · 912 阅读 · 0 评论 -
xpath helper 的使用
使用步骤:1)用chrome打开一个网页2)按Ctrl-Shift键-X以打开XPath辅助控制台。3)按住Shift键鼠标在页面上的元素。查询框会不断更新,以显示鼠标指针下面的元素充分XPath查询。结果框其右侧将显示评价结果的查询。4)如果需要的话,可以直接在控制台编辑XPath查询。在结果框中将立即反映任何变化。5)再次按Ctrl-Shift键-X关闭控制台 ...原创 2018-12-21 13:56:33 · 761 阅读 · 0 评论 -
xpath在爬虫中的使用
xpath的语法:路径查询 // 查找所有的子孙节点,不考虑层级。 / 找直接子节点 ./a/@href 当前路径 ../span/text() 父级下的span的文本内容 /* 任意一个子节点 //* 任意的子孙节点谓语查询 //div[@id] 查找包含所有id属性的div节点 ...原创 2018-09-01 21:33:11 · 1322 阅读 · 0 评论