- 博客(4)
- 收藏
- 关注
原创 爬取书趣阁小说
这次将介绍如何爬取自己喜欢的小说,以及爬取过程中如何处理具有乱码的网页,以及如何去解码及封装代码目标网址:http://www.shuquge.com/爬取书趣阁小说1.分析网页(1) 分析网页(2) 审查网页代码(3) 请求网页内容(4) 对网页内容进行解码2.换一个小说进行爬取(1)请求内容并解码输出(2)提取小说标题(3)提取小说内容(4)拼接及替换小说内容3.保存内容(1)with...
2020-04-19 22:48:17
3482
1
原创 爬取电影信息
之前爬取过基于html跳转的豆瓣TOP250网页,还有基于ajax跳转的美团评论网页,这次将介绍如何爬取基于html和ajax两种跳转方式且含有反爬虫程序和异常值的电影信息网页电影信息网页链接:http://movie.mtime.com/boxoffice/#CN/2019爬取电影信息1.分析网页(1)爬取目标(2)分析2018年的电影信息(3)分析点击2018年时10个页面的json...
2020-04-18 10:46:48
778
原创 爬取基于ajax跳转的网页内容
爬取蘑菇街上某一商品的用户评价1.分析网页(1)对比切换网页时的URL(2)ajax与抓包技术介绍2.抓取网页(1)审查代码1.分析网页(1)对比切换网页时的URL第一页如下图:切换到第2页时如下图:对两页的链接进行对比:第1页链接为:https://shop.mogu.com/detail/1mgmdc8?acm=3.ms.1_4_1mgmdc8.43.1185-68998.8Jy...
2020-04-12 18:37:25
1889
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人