- 博客(3)
- 收藏
- 关注
原创 爬取书趣阁小说
文章目录1 请求网页1.1获取网页text格式2 解码3 获取信息3.1提取标题3.2提取内容4 存入TXT5 封装方法6 利用xpath获取所有文章链接代码汇总爬取结果1 请求网页返回200,请求网页成功1.1获取网页text格式获取文本内容后,中文部分全是乱码,需进行解码2 解码解码需在获取text格式前解码 #解码 response.encoding = res...
2020-04-19 23:59:15 442
原创 selenium爬取拉勾网
文章目录1 安装selenium和webdriver1.1 自动控制浏览器2 正式爬取拉勾网2.1控制浏览器,进入拉勾网1 安装selenium和webdriver在Python路径下安装selenium,安装成功后还需安装相应浏览器的webdriver,不然无法控制浏览器,比如谷歌浏览器要下载chromedriver进入官网 http://npm.taobao.org/mirrors...
2020-04-19 16:27:07 1146
原创 #爬取豆瓣电影top250
1 创建jupyter环境及安装相关的包@[TOC]1.1 安装jupyter@[TOC]1.2安装requests和lxml@[TOC]2 分析网页链接@[TOC]3 爬取网页@[TOC]3.1 请求源代码@[TOC]3.2 设置浏览器代理@[TOC]3.3 请求网页代码汇总@[TOC]4 获取内容@[TOC]4.1 获取xpath路径方法@[TOC]4.2利用包lxml解析...
2020-04-13 00:28:21 1102
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人