自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 爬取书趣阁小说

文章目录1 请求网页1.1获取网页text格式2 解码3 获取信息3.1提取标题3.2提取内容4 存入TXT5 封装方法6 利用xpath获取所有文章链接代码汇总爬取结果1 请求网页返回200,请求网页成功1.1获取网页text格式获取文本内容后,中文部分全是乱码,需进行解码2 解码解码需在获取text格式前解码 #解码 response.encoding = res...

2020-04-19 23:59:15 442

原创 selenium爬取拉勾网

文章目录1 安装selenium和webdriver1.1 自动控制浏览器2 正式爬取拉勾网2.1控制浏览器,进入拉勾网1 安装selenium和webdriver在Python路径下安装selenium,安装成功后还需安装相应浏览器的webdriver,不然无法控制浏览器,比如谷歌浏览器要下载chromedriver进入官网 http://npm.taobao.org/mirrors...

2020-04-19 16:27:07 1146

原创 #爬取豆瓣电影top250

1 创建jupyter环境及安装相关的包@[TOC]1.1 安装jupyter@[TOC]1.2安装requests和lxml@[TOC]2 分析网页链接@[TOC]3 爬取网页@[TOC]3.1 请求源代码@[TOC]3.2 设置浏览器代理@[TOC]3.3 请求网页代码汇总@[TOC]4 获取内容@[TOC]4.1 获取xpath路径方法@[TOC]4.2利用包lxml解析...

2020-04-13 00:28:21 1102

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除