向泽羿�️-CSDN博客

原创爬取书趣阁小说

文章目录1 请求网页1.1获取网页text格式2 解码3 获取信息3.1提取标题3.2提取内容4 存入TXT5 封装方法6 利用xpath获取所有文章链接代码汇总爬取结果1 请求网页返回200，请求网页成功1.1获取网页text格式获取文本内容后，中文部分全是乱码，需进行解码2 解码解码需在获取text格式前解码 #解码 response.encoding = res...

2020-04-19 23:59:15 442

原创 selenium爬取拉勾网

文章目录1 安装selenium和webdriver1.1 自动控制浏览器2 正式爬取拉勾网2.1控制浏览器，进入拉勾网1 安装selenium和webdriver在Python路径下安装selenium，安装成功后还需安装相应浏览器的webdriver，不然无法控制浏览器，比如谷歌浏览器要下载chromedriver进入官网 http://npm.taobao.org/mirrors...

2020-04-19 16:27:07 1146

原创 #爬取豆瓣电影top250

1 创建jupyter环境及安装相关的包@[TOC]1.1 安装jupyter@[TOC]1.2安装requests和lxml@[TOC]2 分析网页链接@[TOC]3 爬取网页@[TOC]3.1 请求源代码@[TOC]3.2 设置浏览器代理@[TOC]3.3 请求网页代码汇总@[TOC]4 获取内容@[TOC]4.1 获取xpath路径方法@[TOC]4.2利用包lxml解析...

2020-04-13 00:28:21 1102

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 爬取书趣阁小说

原创 selenium爬取拉勾网

原创 #爬取豆瓣电影top250

空空如也

空空如也

原创爬取书趣阁小说