西乐sama-CSDN博客

原创第四课、《爬取小说》

爬取小说1、准备工作2、分析网页1、打开网页2、分析每一章节的链接3、分析小说内容路径4、分析网页请求方式及代理1、查看内容是否正确2、请求方式3、代理3、爬取网页1、查看代理是否正确2、解码3、爬取每一章节小说的链接4、筛选信息1、导入筛选信息的包2、提取信息1、提取章节名和小说内容2、转换数组为文本格式5、保存为txt1、存储路径的选择1、绝对路径：2、相对路径：6、方法（重点）1、将上面爬取...

2020-04-19 14:50:19 371

原创第三课、《爬取电影信息》

《爬取电影信息》1、准备工作2、分析网页1、打开网页2、选取2019年的电影并分析其网页链接3、分析ajax包的链接（1）查看ajax包是否内容正确（2）分析ajax包的链接的规律（3）用for循环爬取网页所有电影的ajax链接3、抓取ajax包1、检查网页2、查询ajax的代理和请求方式（1）代理方式（2）字典3、请求网页（1）正常请求（2）cookie值（3）cookie值的查询（4）放入请求...

2020-04-18 14:39:21 659

原创豆瓣top250

第一课、《Python爬取豆瓣电影TOP250》文章目录第一课、《Python爬取豆瓣电影TOP250》1、准备工作1.安装2.建立环境3.进入编辑环境2、分析网页1.打开豆瓣top250网页2.分析网页链接3、爬取网页1.根据分析的结果用for循环爬取所有链接2.请求网页源代码3.伪装浏览器4、筛选信息1.查看xpath路径2、获取xpath路径中的数据3.python综合输出方法5、保存6、...

2020-04-12 18:02:55 716 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 第四课、《爬取小说》

原创 第三课、《爬取电影信息》

原创 豆瓣top250

空空如也

空空如也

原创第四课、《爬取小说》

原创第三课、《爬取电影信息》

原创豆瓣top250