爬虫
兢飞
这个作者很懒,什么都没留下…
展开
-
爬虫|requests
标题 import requests response = requests.get("http://www.baidu.com/") print(response.status_code) # 返回的状态码 print(response.text) # 返回的网页 print(response.content) # 返回的二进制,图片,...原创 2019-02-15 17:24:54 · 102 阅读 · 0 评论 -
爬虫|selenium
介绍 [百度百科]Selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。它可以帮助我们在有的网站使用异步加载不方便得到html,html没有我们想要的信息。 初级 from seleni...翻译 2019-02-15 18:20:52 · 103 阅读 · 0 评论 -
爬虫|urllib
初级打开 使用urlopen打开 from urllib import request response = request.urlopen('https://www.baidu.com/') print(response.read()) print(response.status) 添加头信息 第一种 第二种 cookies处理 ...翻译 2019-02-15 18:26:07 · 74 阅读 · 0 评论 -
爬虫|网站的认识
查看网站构建的技术类型 在开始爬虫的时候我们可以看一下网站使用了什么技术类型,因为网站的技术类型会影响我们如何爬取网站。在python中有一个模块可以帮助我们查看——builtwith。安装方法如下: pip install builtwith 使用如下:我们以京东为例,以百度为例返回的为空字典 import builtwith response = builtwith.parse('ht...原创 2019-02-13 17:31:33 · 563 阅读 · 0 评论