「已注销」-CSDN博客

原创爬虫之前需要提前进行测试

首先，在爬虫之前需要打开python自带的IDLE，对所爬取网站进行一个小测试；其次在IDLE中import requests—>url = ‘’ —>r = requests.get(url)—>r.status_code看是否为200（200表示成功链接网站）；最后在打开vscode进行编码，以防白敲代码。谢谢大家...

2021-12-27 20:46:45 184

原创爬虫学习的第一天（requests简单的框架--中阶4）---＞selenium自动化测试

#可通过使用页面中的下一页功能进行多页面爬取from selenium import webdriverimport timefrom fake_useragent import UserAgentfrom lxml import etreechrome = webdriver.Chrome()chrome.maximize_window()chrome.get("https://www.huya.com/g/lol")chrome.implicitly_wait(10) #隐式等待

2022-01-06 21:07:13 491

原创爬虫学习的第一天（requests简单的框架--中阶3）---＞xpath 牙

#爬取某牙页面的主播房间名、热度与主播名import requestsimport timefrom lxml import etreefrom fake_useragent import UserAgentdef getHTML(url): try: # headers = {'UserAgent':UserAgent().chrome} r = requests.get(url) r.raise_for_status r

2022-01-06 20:25:23 456

原创爬虫学习的第一天（requests简单的框架--中阶2）---＞xpath 小说

#爬取起点小说网的例子,本文中采取了xpath提取信息的方法，之后还有别的方法。import requestsfrom fake_useragent import UserAgentimport timefrom bs4 import BeautifulSoup as bsfrom lxml import etree def get_html(url): #创建一个通用得网页的函数 try: headers = {'UserAgent':UserAgen

2022-01-03 22:09:34 335

原创爬虫学习的第一天（requests简单的框架--中阶1）---＞bs爬取

#熟悉BeautifulSoup库，进行简单的爬取内容import requestsfrom fake_useragent import UserAgentfrom bs4 import BeautifulSoup #调用新的库为BeautifulSoupdef getHTML(url): #定义一个获得爬取网页页面的函数 try: headers = {'UserAgent':UserAgent().chrome} r = reque

2021-12-30 22:46:07 322

原创爬虫学习的第一天（requests简单的框架--初阶6）

#本内容对上一篇文章进行一些优化import requestsfrom fake_useragent import UserAgentimport retry: url = "https://sports.qq.com/nba/" headers = { 'User-Agent':UserAgent().chrome } r = requests.get(url,headers = headers) #r.encoding = r.appare

2021-12-28 21:35:57 330

原创爬虫学习的第一天（requests简单的框架--初阶5）

#本章内容爬取腾讯体育网，将其中的新闻爬取显示出来。import requestsfrom fake_useragent import UserAgent #调用fake_useragent库中UserAgent模块import retry: url = "https://sports.qq.com/" #爬取的网站 headers = { 'User-Agent':UserAgent().chrome #可以生成一个chrome浏览器的一个代理。具体

2021-12-28 20:35:27 373

原创爬虫学习的第一天（requests简单的框架--初阶4）

#本次爬取虎扑网（动态页面），当你用滚轮直接向下滑动就可以多看页面。从而进行多数据爬。import requestsimport timefrom random import choicetry: for i in range(3): headers = { 'User-Agent':'Mozilla/5.0' } url = "https://www.hupu.com/home/v1/news?pageNo={}&am

2021-12-27 19:58:43 146

原创爬虫学习的第一天（requests简单的框架--初阶3）

#目前只掌握这些，如果有大神有更简单的操作可以进行点评，谢谢。import requestsfrom random import choicesimport time #导入时间模块def getHTML(): try: x = ['Mozilla/5.0','MQQBrowser/26 Mozilla/5.0','Opera/9.80'] headers = { 'User-Agent':choices(x) } a = input("请输入搜索内容:") for

2021-12-27 19:28:16 50

原创爬虫学习的第一天（requests简单的框架--初阶2）

import requestsfrom random import choice #返回列表，元组或字符串中的随机项。def getHTML(): try: x = ['Mozilla/5.0','MQQBrowser/26 Mozilla/5.0','Opera/9.80'] #搜索来的几个用户代理 headers = { 'User-Agent':choice(x) #用户代理，使服务器能够识别浏览器，操作系统等。一般网站能可通过辨别是否通过浏览器访问网站而进行访问。

2021-12-26 15:03:59 244

原创爬虫学习的第一天（requests简单的框架--初阶）

import requests #调用requests库def getHTML(url): try: #将爬取网页中出现的错误直接try，是爬取正常运行 r = requests.get(url) r.raise_for_status #判断是否能链接上 r.encoding = r.apparent_encoding #获取编码方式，网页页面内容可能与标题不一样 return r.text except: retur

2021-12-26 14:54:04 165

I-plein的博客