![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
loveysuxin
这个作者很懒,什么都没留下…
展开
-
使用selenium实现一个简单的爬虫
使用selenium爬虫网站http://www.17huo.com/search.html?sq=2&keyword=%E7%BE%8A%E6%AF%9B前2页商品指定内容。主要思想:请求URL,从源码中获取指定selector,进行爬取。import timefrom selenium import webdriverbrowser = webdriver.Chrome()browser.set_page_load_timeout(30)# get 方法 打开.原创 2020-12-09 17:13:32 · 183 阅读 · 0 评论 -
Python爬虫--requests库基本用法
requests是python实现的简单易用的HTTP库。下面介绍其一些基本的用法。1 、基本用法import requestsresponse = requests.get('http://www.baidu.com')#print(type(response)) # 查看类型#print(dir(response)) # 查看response下的方法print(response.status_code) # 打印状态码print(response.url) # 打印请求URL原创 2020-12-09 17:06:09 · 479 阅读 · 1 评论 -
mac更换Chromedriver驱动
背景今天使用Python进行爬虫,运行代码报错如下: Message: session not created: This version of ChromeDriver only supports Chrome version 83分析原因:是Chromedriver与chorme浏览器版本不一致的原因。1、chorme浏览器 “设置” 中查看版本信息2、去下面任意网站下载对应驱动,如果没有完全匹配的版本,找一个最接近的就可以了。官方:http://chromedriver.storage原创 2020-12-08 21:32:14 · 755 阅读 · 0 评论 -
python requests 爬虫--爬取HTML源码不显示正文已解决
爬虫第一步:获取整个网页的HTML信息。源代码如下:# -*- coding:UTF-8 -*-import requestsif __name__ == '__main__': target = 'https://www.biqukan.com/1_1094/5403177.html' req = requests.get(url=target) req...原创 2019-12-05 14:07:40 · 11551 阅读 · 7 评论 -
爬虫下来的网页中文乱码解决
# -*- coding:UTF-8 -*-import requestsif __name__ == '__main__': target = 'http://www.biqukan.com/1_1094/5403177.html' req = requests.get(url=target) print(req.text)运行结果:print(req...原创 2019-12-04 18:14:30 · 843 阅读 · 0 评论 -
python 爬虫初体验 ———— 一个可运行的爬虫程序
要用到的包可以用pycharm下载: File->Default Settings->Default Project->Project Interpreter 选择python版本并点右边的加号安装想要的包 爬取http://www.weather.com.cn/weather/101190401.shtml天气情况,代码以及解释如下: # coding :UTF-...转载 2018-09-05 14:44:30 · 1225 阅读 · 0 评论