爬虫
ShiLihepan
这个作者很懒,什么都没留下…
展开
-
爬虫基础之urllib.request
1、导入requestfrom urllib import request2、使用urlopen请求网页url = "http://www.baidu.com"rsp = urllib.request.urlopen(url)看到上面一行代码,有没有觉得很长,想有一个单词来代替三个单词使用read读取网页内容,得到数据为bytes格式html = rsp.read()3、使用decode解码...原创 2018-05-23 14:47:55 · 428 阅读 · 0 评论 -
Request实例
构造一个Request实例,把请求信息添加到Request中from urllib import request,parsebaseurl = "http://fanyi.baidu.com/sug"kw = input("请输入要翻译的内容")data = {"kw":kw}data = parse.urlencode(data)headers = {'Content-lengt...原创 2018-05-23 16:04:35 · 798 阅读 · 0 评论 -
爬虫之使用代理访问网页
使用代理访问网页有四个步骤1.设置代理地址proxy = {"http":"80.211.168.221:8080"}2.创建ProxyHandlerproxy_handler = request.ProxyHandler(proxy)3.创建Openeropener = request.build_opener(proxy_handler)4.安装Openerrequest.install_op...原创 2018-05-23 16:48:44 · 2376 阅读 · 0 评论 -
爬虫之requests
requests是以urllib为底层开发的模块,相比于request,requests更简洁。requests有三种请求方式:request,get,post;最常用的是post和get。import requestsurl = "http://www.baidu.com/s?"kw = input("请输入关键字")data = {"kw":kw}headers = { ...原创 2018-05-24 13:08:42 · 217 阅读 · 0 评论 -
Ubuntu下配置chromedriver环境变量
网上教程关于配置环境变量的有一大堆,但我在实际操作过程中始终不能成功,经过一番试验,找到了一个很简单的办法。安装好chromedriver之后,首先要找到他的安装目录执行:dpkg -L chromium-chromedriver找到他的路径为 /urs/lib/chromium-browser/chromedriver有网友说chromedriver一定要放到 /urs/bin 目录中也就是...原创 2018-06-22 14:35:12 · 4506 阅读 · 3 评论 -
BeautifulSoup中children函数和desscendants函数的区别
我们将通过下面的举例来说明两个函数的区别首先打开一个网页https://blog.csdn.net/xiaohukun/article/details/77679134这是一篇博客,审查元素,选取如下图元素使用children函数,代码为from urllib import requestfrom bs4 import BeautifulSoupif __name__ == '__main__':...原创 2018-06-15 09:19:12 · 1405 阅读 · 1 评论