![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
「已注销」
这个作者很懒,什么都没留下…
展开
-
python_爬虫实践_(二)爬取静态小说爬虫整体架构
我练习了5个静态页面的小说网站,发现静态小说网站的爬虫整体套路都是差不多的; 一般都是相似的嵌套结构: 小说列表(一共有多少页小说)—(选中一页,然后点进去)–> 一页小说(每页包含多少个小说条目)—(选中一个条目,然后点进去)–> 一本具体的小说:1)直接在该页面爬取小说相关信息 2)可以下载的小说则可以直接进入下载页面,然后下载到本地;只能在线阅读的小说则需要分别爬取每一页的内容...原创 2019-05-30 11:08:49 · 3506 阅读 · 0 评论 -
python_爬虫实践_(一)爬取静态小说网站要点
用beautifulSoup+requests,完完整整爬取一个静态小说网站 重点1:完整爬取 重点2:静态网页,还没学jsp,selenium,json等这些,不会爬动态的 页面URL要点: 1:页面编号规律 2:一类可以直接下载全本的先可以在下载页面直接找到参数以及参数对应的值,然后用post提交参数,获取下载文件;另一类只能在线读的就用get爬取分页,获取其中的文本再组合成一个text 错误...原创 2019-05-29 21:26:31 · 445 阅读 · 0 评论