![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
Abby.R
码农
展开
-
爬取笔趣阁小说网站上的所有小说(二)
爬取笔趣阁小说网站上的所有小说(二)网址为:https://www.biqukan.cc/topallvisit/1.html我们已经拿到了所有小说的地址爬取笔趣阁小说网站上的所有小说(一),现在开始下载小说。获取小说的信息每个小说都有书名,类型,图片,简介等信息,我们先得到并存储在CSV里。我们下先读取已经下载好的小说地址,并获得小说页面的源码:# 以1页为例for i in range(1,2): # 打开本地文件夹 with open('第'+str(i) + '页.tx原创 2020-06-09 20:50:09 · 3821 阅读 · 0 评论 -
爬取笔趣阁小说网站上的所有小说(一)
爬取笔趣阁小说网站上的所有小说(一)网址为:https://www.biqukan.cc/topallvisit/1.html反反爬虫爬虫首先要做的就是看看目标网址有没有反爬虫手段,一般网站都是有的,但是想这种网站的话,一般不会太厉害,所以只要价格请求头就好了。user_agent = r'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/53原创 2020-06-09 19:30:54 · 3144 阅读 · 0 评论 -
使用Scrapy 框架爬取段子(入门)
scrapy 爬虫框架学习目标网站:段子网创建项目:在mmd中或者在pycharm的Terminal中运行命令scrapy startproject text(text为项目名称)该命令将会创建包含下列内容的 text 目录:test/ scrapy.cfg test/ __init__.py items.py ...原创 2020-03-06 11:58:52 · 389 阅读 · 2 评论 -
Scrapy选择器(Selectors)
选择器(Selectors)当抓取网页时,你做的最常见的任务是从HTML源码中提取数据。现有的一些库可以达到这个目的:BeautifulSoup 是在程序员间非常流行的网页分析库,它基于HTML代码的结构来构造一个Python对象, 对不良标记的处理也非常合理,但它有一个缺点:慢。lxml 是一个基于 ElementTree (不是Python标准库的一部分)的python化的XML解...转载 2020-03-06 11:45:50 · 449 阅读 · 0 评论