- 博客(3)
- 收藏
- 关注
原创 第四课、《爬取小说》
爬取小说1、准备工作2、分析网页1、打开网页2、分析每一章节的链接3、分析小说内容路径4、分析网页请求方式及代理1、查看内容是否正确2、请求方式3、代理3、爬取网页1、查看代理是否正确2、解码3、爬取每一章节小说的链接4、筛选信息1、导入筛选信息的包2、提取信息1、提取章节名和小说内容2、转换数组为文本格式5、保存为txt1、存储路径的选择1、绝对路径:2、相对路径:6、方法(重点)1、将上面爬取...
2020-04-19 14:50:19 371
原创 第三课、《爬取电影信息》
《爬取电影信息》1、准备工作2、分析网页1、打开网页2、选取2019年的电影并分析其网页链接3、分析ajax包的链接(1)查看ajax包是否内容正确(2)分析ajax包的链接的规律(3)用for循环爬取网页所有电影的ajax链接3、抓取ajax包1、检查网页2、查询ajax的代理和请求方式(1)代理方式(2)字典3、请求网页(1)正常请求(2)cookie值(3)cookie值的查询(4)放入请求...
2020-04-18 14:39:21 659
原创 豆瓣top250
第一课、《Python爬取豆瓣电影TOP250》文章目录第一课、《Python爬取豆瓣电影TOP250》1、准备工作1.安装2.建立环境3.进入编辑环境2、分析网页1.打开豆瓣top250网页2.分析网页链接3、爬取网页1.根据分析的结果用for循环爬取所有链接2.请求网页源代码3.伪装浏览器4、筛选信息1.查看xpath路径2、获取xpath路径中的数据3.python综合输出方法5、保存6、...
2020-04-12 18:02:55 716 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人