fjords-CSDN博客

原创利用chrome检查网页

chrome为开发者提供了下面几组工具：element 从浏览器角度观察网页，从此处可以看到chrome渲染页面时的html，css和dom对象。network 页面与服务器交互过程，http请求头，相应内容source 源代码面板主要用于调试JavaScriptConsole 控制台面板显示warning和errors。在开发期间可以用console记录诊断信息，或者用它作为shel...

2020-01-20 00:49:42 1612

原创 ReadTimeoutError: HTTPSConnectionPool(host='files.pythonhosted.org', port=443): Read timed out.解决方法

在准备查看一网站支持技术类型时，安装wad库出现了问题：查阅资料后，发现这其实是一个国内某些下载偏慢致使timeout出现的问题，解决方法有几种，比较简单的是直接加一个timeout设定pip --default-timeout=100 install wad之后成功。...

2020-01-19 23:14:28 4136

原创 robots.txt与sitemap

import urllib.robotparser as urobotimport requestsurl="https://www.taobao.com"rp=urobot.RobotFileParser()rp.set_url(url+'/robots.txt')rp.read()user_agent='Baiduspider'if rp.can_fetch(user_agen...

2020-01-19 22:29:04 948

原创爬虫基础：lxml与requests库, 使用爬虫获取一个确定的简单信息

lxml库是用于解析XML和HTML的工具，可以用XPath和CSs来定位元素。Requests是著名的python HTTP库，相比与python自带的urllib库而言，requests更方便简洁，requests库更人性化。requests.get(url) 和 request.post(url)是两种基本的发送http 请求的方法，get即发送http get请求，例如下import...

2020-01-19 21:50:38 809

原创关于selenium与chromedriver报错selenium.common.exceptions.SessionNotCreatedException

新手上selenium总结几个点：首先py文件名不能用selenium，不然import会优先导入selenium而报错，下一个问题会成为another occured第二个是chromedriver的版本问题（以chrome为例），由于chromedriver在国内无法直接访问下载，可以从chromedriver库这里是第一次运行时候的报错，很明显是一个版本问题。进入自己的chrome，找...

2020-01-16 13:31:03 937

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 利用chrome检查网页

原创 ReadTimeoutError: HTTPSConnectionPool(host='files.pythonhosted.org', port=443): Read timed out.解决方法

原创 robots.txt与sitemap

原创 爬虫基础：lxml与requests库, 使用爬虫获取一个确定的简单信息

原创 关于selenium与chromedriver报错selenium.common.exceptions.SessionNotCreatedException

空空如也

空空如也

原创利用chrome检查网页

原创爬虫基础：lxml与requests库, 使用爬虫获取一个确定的简单信息

原创关于selenium与chromedriver报错selenium.common.exceptions.SessionNotCreatedException