![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
qq_16069927
这个作者很懒,什么都没留下…
展开
-
爬虫与反爬虫的博弈
爬虫与发爬虫的厮杀,一方为了拿到数据,一方为了防止爬虫拿到数据,谁是最后的赢家? 重新理解爬虫中的一些概念 爬虫:自动获取网站数据的程序 反爬虫:使用技术手段防止爬虫程序爬取数据 误伤:反爬虫技术将普通用户识别为爬虫,这种情况多出现在封ip中,例如学校网络、小区网络再或者网络网络都是共享一个公共ip,这个时候如果是封ip就会导致很多正常访问的用户也无法获取到数据。所以相对来说封ip的策略不是特...转载 2020-04-23 10:00:05 · 154 阅读 · 0 评论 -
获取当前页面的所有链接的四种方法对比(python 爬虫,包含 selenium 获取的方式)
''' 得到当前页面所有连接 ''' import requests import re from bs4 import BeautifulSoup from lxml import etree from selenium import webdriver url = 'http://www.ok226.com' r = requests.get(url) r.encoding = 'gb...原创 2019-12-14 14:10:52 · 872 阅读 · 0 评论 -
xpath helper 的使用
使用步骤: 1)用chrome打开一个网页 2)按Ctrl-Shift键-X以打开XPath辅助控制台。 3)按住Shift键鼠标在页面上的元素。查询框会不断更新,以显示鼠标指针下面的元素充分XPath查询。结果框其右侧将显示评价结果的查询。 4)如果需要的话,可以直接在控制台编辑XPath查询。在结果框中将立即反映任何变化。 5)再次按Ctrl-Shift键-X关闭控制台 ...原创 2018-12-21 13:56:33 · 750 阅读 · 0 评论 -
xpath在爬虫中的使用
xpath的语法: 路径查询 // 查找所有的子孙节点,不考虑层级。 / 找直接子节点 ./a/@href 当前路径 ../span/text() 父级下的span的文本内容 /* 任意一个子节点 //* 任意的子孙节点 谓语查询 //div[@id] 查找包含所有id属性的div节点 ...原创 2018-09-01 21:33:11 · 1297 阅读 · 0 评论