爬虫
兢飞
这个作者很懒,什么都没留下…
展开
-
爬虫|requests
标题import requestsresponse = requests.get("http://www.baidu.com/")print(response.status_code) # 返回的状态码print(response.text) # 返回的网页print(response.content) # 返回的二进制,图片,...原创 2019-02-15 17:24:54 · 122 阅读 · 0 评论 -
爬虫|selenium
介绍[百度百科]Selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。它可以帮助我们在有的网站使用异步加载不方便得到html,html没有我们想要的信息。初级from seleni...翻译 2019-02-15 18:20:52 · 147 阅读 · 0 评论 -
爬虫|urllib
初级打开使用urlopen打开from urllib import requestresponse = request.urlopen('https://www.baidu.com/')print(response.read())print(response.status)添加头信息第一种第二种cookies处理...翻译 2019-02-15 18:26:07 · 84 阅读 · 0 评论 -
爬虫|网站的认识
查看网站构建的技术类型在开始爬虫的时候我们可以看一下网站使用了什么技术类型,因为网站的技术类型会影响我们如何爬取网站。在python中有一个模块可以帮助我们查看——builtwith。安装方法如下:pip install builtwith使用如下:我们以京东为例,以百度为例返回的为空字典import builtwith response = builtwith.parse('ht...原创 2019-02-13 17:31:33 · 603 阅读 · 0 评论