Python爬虫
niewzh
QQ:1468619361 添加请说明来意
展开
-
BeautifulSoup 获取页面中 图片的src
使用 find_all() 方法获取所有的<img>标签img = soup.find_all('img')得到的结果是一个<img>标签数组,使用 get() 获取<img>的srcsrc=img[2].get('src') ...原创 2018-08-18 22:00:21 · 20597 阅读 · 2 评论 -
BeautifulSoup获取 title 标签的内容
使用 BeautifulSoup() 方法获取html内容后,返回的结果即为可解析内容的html节点对象,可直接获取内容。 soup = BeautifulSoup(res, 'lxml')如上代码,soup 即为可解析内容的html节点对象想要获取<title>标签,只需: title=soup.title想要获取title的文本内容: ...原创 2018-08-18 22:19:37 · 16436 阅读 · 1 评论 -
Requests爬虫之伪装浏览器
Requests库在发出请求时,会将自己的信息如实告诉给服务器,如果服务器设置了反爬虫,会导致Requests库返回错误,一般为400。我们通过伪装可绕过一般服务器的识别通过设置header,将爬虫伪装成浏览器。 send_headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) App...原创 2018-08-21 18:55:20 · 10168 阅读 · 0 评论 -
爬虫页面解析——使用Chrome调试工具获取XPath
按F12打开调试器,打开Elements选项卡找到目标元素对应的标签,右键——Copy——Copy XPath原创 2018-08-21 18:56:49 · 1385 阅读 · 0 评论 -
BeautifulSoup获取标签中包含的文字
使用get_text()方法可以获取当前标签下的所有文字,包括其子标签的,该方法可自动剔除其余的修饰标签 若当前标签的子节点是文字,可使用.string获得其下的文本内容BeautifulSoup将标签解析为xml,子节点看作父节点的属性值,可以以“parent.child”的方式访问...原创 2018-08-21 20:24:02 · 24625 阅读 · 1 评论 -
Scrapy选中标签中的文本
CSS选择器:使用 :: 筛选例如:<a href="www.netscape.xyz" class="fun">网景netscape</a>css选择器:response.css('a.fun::text').extract()原创 2018-08-25 17:52:21 · 554 阅读 · 0 评论