![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
Carol_小菜鸟
重新出发,坚持努力!
展开
-
Scrapy爬虫框架
scrapy架构流程Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。Scrap,是碎片的意思,这个Python的爬虫框架叫Scr...原创 2020-11-04 14:42:51 · 196 阅读 · 0 评论 -
应对反爬虫的策略
为什么要反爬虫?网络爬虫,是编写的一个自动提取网页内容的程序,它为搜索引起从万维网上下载所需的网页内容,是搜索引擎的重要组成部分。但当网络爬虫被滥用后,互联网上就会出现太多同质的东西,原创得不到保护。于是,很多网站开始反爬虫网络,想方设法保护自己的内容。他们根据ip访问频率,浏览网页速度,账户登陆,输入验证,flash封装,ajax混淆等技术,来反对网络爬虫。所以可能会导致真正急需数据的用户...原创 2020-11-04 14:38:36 · 3520 阅读 · 0 评论 -
scrapy爬虫框架及运行流程
文章目录scrapy 简介scrapy 构架图scrapy 运作过程scrapy 简介scrapy 构架图scrapy 运作过程原创 2020-06-21 21:22:47 · 3021 阅读 · 0 评论 -
爬取豆瓣评分前50的电影信息
文章目录项目描述内容模块代码区项目描述根据豆瓣评分排名,获取豆瓣评分前50的电影信息。主要包括:电影名称、电影评分、评价人数和电影短评信息,并存储到本地表格文件。内容模块使用requests获取页面信息。使用BeautifulSoup结合正则表达式解析页面,获取所需要的电影名称、电影评分、评价人数、电影短评等信息。然后使用openpyxl模块将信息保存到新建的excel表格中。代码区i...原创 2020-04-30 02:21:34 · 2022 阅读 · 0 评论 -
python爬虫中urllib.request和requests的区别
urllib.requests和requests都是爬虫中页面信息获取的方法。他们不仅在写法上和导入模块上存在区别,在用法上也不尽相同。原创 2020-04-30 01:32:13 · 6281 阅读 · 0 评论 -
python爬虫中的requests和bs4
文章目录爬虫的理解requestsBS4爬虫的理解对网站信息进行爬取都是在对网站的源码进行查看和分析的基础上进行的。爬虫的第一步,首先要进入网站,审查元素,根据爬虫的需要选择url地址,进行重点内容的爬取。requestsrequests第三方模块安装导入后,可根据url地址进行网页信息的获取。requests.get(url) 获取网页。接下来就可将获取到的信息交给Beautiful...原创 2020-04-30 00:01:51 · 622 阅读 · 0 评论