爬虫学习
文章平均质量分 86
不会打代码的猪
这个作者很懒,什么都没留下…
展开
-
小白python爬虫学习4(scrapy初级入门)
scrapy 不是一个爬虫函数功能库,而是一个爬虫框架 那么爬虫框架是什么呢? 爬虫框架是个半成品,能够帮助用户实现专用网络爬虫,是实现爬虫功能的一个软件结构和功能组件,像是一个使用模板,约束稍小。 以下为Scrapy的"5+2"结构 有三条主要的数据流 1.spiders--->Engine---->Scheduler 其中Spider获取用户请求并通过Engine传递给Scheduler,而Scheduler负责对爬取请求进行调度 2.Scheduler---->Engi原创 2021-02-03 16:48:19 · 144 阅读 · 0 评论 -
小白python爬虫学习3(regular expression正则表达式RE)-淘宝商品,股票实例
依旧这些代码来自北理课程,之后会解释与学习相关知识 一:获取淘宝的商品与价格的代码: import requests import re def getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text except:原创 2021-02-03 12:45:40 · 373 阅读 · 4 评论 -
小白python爬虫学习2(初识Request,Beautifulsoup,print)
本文以中国大学mooc北理老师课程为基础 先贴源代码,之后一一解释。 这个代码就是获取一下网页的大学排名,然后再输出一下,这个简单代码主要有三块内容,rquest,beautiful,print的一些中文格式处理,下文我也将这样介绍 import requests from bs4 import BeautifulSoup import bs4 def getHTMLText(url): try: r = requests.get(url, timeout=30)原创 2021-02-01 23:25:32 · 323 阅读 · 1 评论