自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 利用chrome检查网页

chrome为开发者提供了下面几组工具:element 从浏览器角度观察网页,从此处可以看到chrome渲染页面时的html,css和dom对象。network 页面与服务器交互过程,http请求头,相应内容source 源代码面板 主要用于调试JavaScriptConsole 控制台面板 显示warning和errors。在开发期间可以用console记录诊断信息,或者用它作为shel...

2020-01-20 00:49:42 1467

原创 ReadTimeoutError: HTTPSConnectionPool(host='files.pythonhosted.org', port=443): Read timed out.解决方法

在准备查看一网站支持技术类型时,安装wad库出现了问题:查阅资料后,发现这其实是一个国内某些下载偏慢致使timeout出现的问题,解决方法有几种,比较简单的是直接加一个timeout设定pip --default-timeout=100 install wad之后成功。...

2020-01-19 23:14:28 3923

原创 robots.txt与sitemap

import urllib.robotparser as urobotimport requestsurl="https://www.taobao.com"rp=urobot.RobotFileParser()rp.set_url(url+'/robots.txt')rp.read()user_agent='Baiduspider'if rp.can_fetch(user_agen...

2020-01-19 22:29:04 791

原创 爬虫基础:lxml与requests库, 使用爬虫获取一个确定的简单信息

lxml库是用于解析XML和HTML的工具,可以用XPath和CSs来定位元素。Requests是著名的python HTTP库,相比与python自带的urllib库而言,requests更方便简洁,requests库更人性化。requests.get(url) 和 request.post(url)是两种基本的发送http 请求的方法,get即发送http get请求,例如下import...

2020-01-19 21:50:38 658

原创 关于selenium与chromedriver报错selenium.common.exceptions.SessionNotCreatedException

新手上selenium总结几个点:首先py文件名不能用selenium,不然import会优先导入selenium而报错,下一个问题会成为another occured第二个是chromedriver的版本问题(以chrome为例),由于chromedriver在国内无法直接访问下载,可以从chromedriver库这里是第一次运行时候的报错,很明显是一个版本问题。进入自己的chrome,找...

2020-01-16 13:31:03 773

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除