python--爬虫学习
为比赛而学的一些爬虫基础
@白圭
积沙成塔
展开
-
爬虫学习日志0-使用request请求库基本操作
前言 这篇文章主要讲述python爬虫入门第一步骤,使用request请求库获取网站数据 一、使用步骤 代码如下(示例): #1.导入模块 import requests #2.发送请求,获取响应 response = requests.get("http://www.baidu.com") print(response) #3.获取响应数据 #print(response.encoding)#IOS-8859-1 #response.encoding='utf8' #print(response.tex原创 2022-02-02 11:06:05 · 263 阅读 · 0 评论 -
爬虫学习日志1--beautifulsoup对象的创建
前言 下面代码创建了一个基本的beautifulsoup对象 二、使用步骤 代码如下(示例): #1.导入模块 from bs4 import BeautifulSoup #2.创建BeautifulSoup对象 soup = BeautifulSoup('<html>data<html>','lxml') print(soup) 总结 代码成功运行,就代表beautifulsoup对象创建的成功。 ...原创 2022-02-02 16:20:40 · 341 阅读 · 0 评论 -
爬虫学习日志2--beautifulsoup-find函数的使用
前言 这篇文章主要讲述如何使用beautifulsoup中的find函数 一、使用步骤 #根着视频学习的代码,记录分享一下 #1.导入模块 from bs4 import BeautifulSoup #2.准备文档字符串 html='''xxx此处是文本内容''' #3.创建BeautifulSoup对象 soup=BeautifulSoup(html,'lxml') #4.查找title标签 title=soup.find('title') print(title) #查找a标签 a=soup.find(原创 2022-02-02 17:05:22 · 1035 阅读 · 0 评论 -
爬虫学习日志3--获取网页的数据并通过bs4提取
前言 这篇文章主要讲述如何通过request获取网页的数据,并且通过bs4提取。 一、pandas是什么? #根着视频学习的代码,记录分享一下 #1.导入相关模块 import requests from bs4 import BeautifulSoup #2.发送请求,获取疫情首页内容 response = requests.get('https://www.baidu.com/?tn=02003390_6_hao_pg') home_page=response.content.decode() #pr原创 2022-02-03 01:21:17 · 358 阅读 · 0 评论 -
爬虫学习日志4--正则表达式
前言 这篇文章主要讲述正则表达式中基本语句的使用。 一、pandas是什么? #根着视频学习的代码,记录分享一下 #1.导入正则模块 import re #字符匹配 rs=re.findall('abc','abcasdsddsadsdsaewrwer') #字符匹配 .号表示匹配除了换行符以外的字符 rs=re.findall('a.c','abc ') #ok rs=re.findall('a.c','a\nc ') #no #字符匹配 中括号表示bc都可以 rs=re.findall('a[bc]原创 2022-02-03 01:23:25 · 68 阅读 · 0 评论 -
爬虫学习日志5--正则表达式中findall的使用
前言 这篇文章主要讲述正则表达式中findall函数的使用。 一、代码 #根着视频学习的代码,记录分享一下 #1.导入正则模块 import re #1.findall方法,返回匹配的结果列表 rs=re.findall('\d+','chuan13zhi24') #print(rs) #2.findall方法中,flag参数的作用 rs=re.findall('a.bc','a\nbc') #无法匹配 rs=re.findall('a.bc','a\nbc',re.DOTALL) #可以匹配 rs=原创 2022-02-03 01:26:42 · 318 阅读 · 0 评论 -
爬虫学习日志6--正则表达式中r原串的使用
前言 这篇文章主要讲述正则表达式中r原串的使用。 一、代码 #根着视频学习的代码,记录分享一下 #1.导入正则模块 import re #在不使用r原串的时候,遇到转义符怎么做 rs=re.findall('a\nbc','a\nbc',) print(rs) #ok rs=re.findall('a\\\\nbc','a\\nbc',) print(rs) #ok 匹配一个转义符需要四个反斜杠 #r原串在正则中就可以消除转义符带来的影响 r原串无敌 rs=re.findall(r'a\\nb原创 2022-02-04 00:04:58 · 273 阅读 · 0 评论 -
爬虫学习日志7--正则表达式提取json字符串
前言 这篇文章主要讲述正则表达式中对于json的提取。 一、代码 #根着视频学习的代码,记录分享一下 #1.导入相关模块 import requests import re from bs4 import BeautifulSoup #2.发送请求,获取疫情首页内容 response = requests.get('https://ncov.dxy.cn/ncovh5/view/pneumonia') home_page=response.content.decode() #print(home_page原创 2022-02-04 00:05:06 · 2223 阅读 · 0 评论 -
爬虫学习日志8--json转化为python
前言 这篇文章主要讲述json格式对于python的转换 一、代码 #根着视频学习的代码,记录分享一下 import json #1.把JSON字符串,转换为PYTHON数据 #1.1准备JSON字符串 json_str='''[{"美国":"日本"}]''' #1.2把JSON字符串,转换为PYTHON数据 rs = json.loads(json_str) print(rs) print(type(rs)) #clsss 'list' 列表 print(type(rs[0])) #字典 #2.把J原创 2022-02-04 00:05:12 · 283 阅读 · 0 评论 -
爬虫学习日志9--python转换为json
前言 这篇文章主要讲述如何将python格式转换为json格式。 一、代码 #根着视频学习的代码,记录分享一下 import json #1.把python转换为json字符串 #1.1python类型数据 json_str='''[{}]''' rs=json.loads(json_str) #python #1.2把python转换为json字符串 json_str=json.dumps(rs,ensure_ascii=False) #json print(json_str) #2.把python原创 2022-02-04 00:05:23 · 1154 阅读 · 0 评论 -
爬虫学习日志10--获取疫情首页数据并保存完整代码
前言 这篇文章主要讲述如何获取疫情首页数据并且保存。 一、代码 import requests from bs4 import BeautifulSoup import re import json #1.发送请求,获取疫情首页 response = requests.get('https://ncov.dxy.cn/ncovh5/view/pneumonia') home_page=response.content.decode() #2.从疫情首页,提取最近一日各国疫情数据 soup = Beautif原创 2022-02-04 00:05:30 · 928 阅读 · 0 评论 -
爬虫学习日志11--获取疫情数据并保存--封装
前言 这篇文章主要讲述如何封装疫情爬虫函数,并且获取多日的疫情数据 一、代码 #跟着视频学习的代码,记录分享一下 import requests from bs4 import BeautifulSoup import re import json class CoronaVirusSpider(object): def _init_(self): self.home_url='https://ncov.dxy.cn/ncovh5/view/pneumonia'原创 2022-02-05 00:04:06 · 896 阅读 · 0 评论
分享