自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 爬虫之前需要提前进行测试

首先,在爬虫之前需要打开python自带的IDLE,对所爬取网站进行一个小测试;其次在IDLE中import requests—>url = ‘’ —>r = requests.get(url)—>r.status_code看是否为200(200表示成功链接网站);最后在打开vscode进行编码,以防白敲代码。谢谢大家...

2021-12-27 20:46:45 184

原创 爬虫学习的第一天(requests简单的框架--中阶4)--->selenium自动化测试

#可通过使用页面中的下一页功能进行多页面爬取from selenium import webdriverimport timefrom fake_useragent import UserAgentfrom lxml import etreechrome = webdriver.Chrome()chrome.maximize_window()chrome.get("https://www.huya.com/g/lol")chrome.implicitly_wait(10) #隐式等待

2022-01-06 21:07:13 491

原创 爬虫学习的第一天(requests简单的框架--中阶3)--->xpath 牙

#爬取某牙页面的主播房间名、热度与主播名import requestsimport timefrom lxml import etreefrom fake_useragent import UserAgentdef getHTML(url): try: # headers = {'UserAgent':UserAgent().chrome} r = requests.get(url) r.raise_for_status r

2022-01-06 20:25:23 456

原创 爬虫学习的第一天(requests简单的框架--中阶2)--->xpath 小说

#爬取起点小说网的例子,本文中采取了xpath提取信息的方法,之后还有别的方法。import requestsfrom fake_useragent import UserAgentimport timefrom bs4 import BeautifulSoup as bsfrom lxml import etree def get_html(url): #创建一个通用得网页的函数 try: headers = {'UserAgent':UserAgen

2022-01-03 22:09:34 335

原创 爬虫学习的第一天(requests简单的框架--中阶1)--->bs爬取

#熟悉BeautifulSoup库,进行简单的爬取内容import requestsfrom fake_useragent import UserAgentfrom bs4 import BeautifulSoup #调用新的库为BeautifulSoupdef getHTML(url): #定义一个获得爬取网页页面的函数 try: headers = {'UserAgent':UserAgent().chrome} r = reque

2021-12-30 22:46:07 322

原创 爬虫学习的第一天(requests简单的框架--初阶6)

#本内容对上一篇文章进行一些优化import requestsfrom fake_useragent import UserAgentimport retry: url = "https://sports.qq.com/nba/" headers = { 'User-Agent':UserAgent().chrome } r = requests.get(url,headers = headers) #r.encoding = r.appare

2021-12-28 21:35:57 330

原创 爬虫学习的第一天(requests简单的框架--初阶5)

#本章内容爬取腾讯体育网,将其中的新闻爬取显示出来。import requestsfrom fake_useragent import UserAgent #调用fake_useragent库中UserAgent模块import retry: url = "https://sports.qq.com/" #爬取的网站 headers = { 'User-Agent':UserAgent().chrome #可以生成一个chrome浏览器的一个代理。具体

2021-12-28 20:35:27 373

原创 爬虫学习的第一天(requests简单的框架--初阶4)

#本次爬取虎扑网(动态页面),当你用滚轮直接向下滑动就可以多看页面。从而进行多数据爬。import requestsimport timefrom random import choicetry: for i in range(3): headers = { 'User-Agent':'Mozilla/5.0' } url = "https://www.hupu.com/home/v1/news?pageNo={}&am

2021-12-27 19:58:43 146

原创 爬虫学习的第一天(requests简单的框架--初阶3)

#目前只掌握这些,如果有大神有更简单的操作可以进行点评,谢谢。import requestsfrom random import choicesimport time #导入时间模块def getHTML(): try: x = ['Mozilla/5.0','MQQBrowser/26 Mozilla/5.0','Opera/9.80'] headers = { 'User-Agent':choices(x) } a = input("请输入搜索内容:") for

2021-12-27 19:28:16 50

原创 爬虫学习的第一天(requests简单的框架--初阶2)

import requestsfrom random import choice #返回列表,元组或字符串中的随机项。def getHTML(): try: x = ['Mozilla/5.0','MQQBrowser/26 Mozilla/5.0','Opera/9.80'] #搜索来的几个用户代理 headers = { 'User-Agent':choice(x) #用户代理,使服务器能够识别浏览器,操作系统等。一般网站能可通过辨别是否通过浏览器访问网站而进行访问。

2021-12-26 15:03:59 244

原创 爬虫学习的第一天(requests简单的框架--初阶)

import requests #调用requests库def getHTML(url): try: #将爬取网页中出现的错误直接try,是爬取正常运行 r = requests.get(url) r.raise_for_status #判断是否能链接上 r.encoding = r.apparent_encoding #获取编码方式,网页页面内容可能与标题不一样 return r.text except: retur

2021-12-26 14:54:04 165

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除