爬虫案例
彡倾灬染|
这个作者很懒,什么都没留下…
展开
-
聚焦爬虫案例4:斗图啦
需求:获取斗图啦第一页所有图片,并将图片下载到本地导入requests等import requestsimport osfrom lxml import etree定义请求头headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'}发起请求,接收响应respo原创 2020-07-25 01:33:03 · 186 阅读 · 0 评论 -
聚焦爬虫案例3:扇贝单词
需求:使用xpath将单词以及解释提取出来import requestsfrom lxml import etreeheaders = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'}response = requests.get(url='https://www.shanba原创 2020-07-24 13:19:46 · 263 阅读 · 0 评论 -
聚焦爬虫案例2:猫眼电影TOP100
需求:获取猫眼电影TOP100榜中所有电影的信息(排名、电影名、演员、上映时间以及评分)import requests,re定义请求头headers = {‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36’}分页规律:第一页:https://maoyan.com/board/4第二页:h原创 2020-07-24 13:07:11 · 325 阅读 · 0 评论 -
聚焦爬虫案例1:股吧
需求:获取股吧热门信息(阅读数、评论数、标题、作者、更新时间)导入requests,reimport requests,re定义请求头headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'}发起请求,接收响应response = requests.get(url原创 2020-07-23 17:41:43 · 291 阅读 · 0 评论 -
通用爬虫案例5:百度翻译
需求:自定义单词,获取对应单词的解释Ajax局部刷新技术:e.g.京东如果判断出数据是Ajax加载的,开发者工具中需要选择XHRXHR:XML HTTP PEQUEST(异步加载)导入requestsimport requests定义请求头headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100原创 2020-07-23 12:03:29 · 305 阅读 · 0 评论 -
通用爬虫案例4:虎扑新闻
需求:将虎扑新闻前五页内容保存到本地1.导入requests模块import requests定义请求头headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'}分析:分页操作:核心->找规律第一页URL:https://voice.hupu.com/原创 2020-07-23 10:58:24 · 286 阅读 · 0 评论 -
通用爬虫案例3:百度搜索
需求:1.将百度搜索的页面保存到本地2.自定义搜索内容url:统一资源定位符 一个url只能对应一个页面,一个页面可以由多个url对应步骤:1.导入requestsimport requests定义请求头:接收字典headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.原创 2020-07-23 10:27:58 · 604 阅读 · 0 评论 -
通用爬虫案例2:新浪搜索
需求:将新浪python新闻存到本地1.导入requestsimport requests2.发起请求,接收响应此步骤必须找到两个东西:请求方式 和 请求的urlparams参数接收一个字典{k:v},可以自动的将字典中的键值对,以网址中的参数的格式进行拼接get请求:请求的参数放在Query String Parameters中response = requests.get(url='http://search.sina.com.cn/?q=python&c=news&f原创 2020-07-22 18:41:03 · 256 阅读 · 0 评论 -
通用爬虫案例1:百度全部商品
需求:将百度全部产品页面全部爬取下来保存本地1.导入requestsimport requests2.发起请求,返回响应注意:1.确定请求方式1.1 必须从request method中确定2.确定请求的网址url2.1 当请求中出现多个Doc请求时,如何确定URL?一个一个找2.2 确定URL时,必须从request url中进行确定,不能够直接复制地址栏中的URLresponse = requests.get(url='https://www.baidu.com/more/')原创 2020-07-22 18:38:48 · 284 阅读 · 0 评论