- 博客(11)
- 收藏
- 关注
原创 爬虫之前需要提前进行测试
首先,在爬虫之前需要打开python自带的IDLE,对所爬取网站进行一个小测试;其次在IDLE中import requests—>url = ‘’ —>r = requests.get(url)—>r.status_code看是否为200(200表示成功链接网站);最后在打开vscode进行编码,以防白敲代码。谢谢大家...
2021-12-27 20:46:45 184
原创 爬虫学习的第一天(requests简单的框架--中阶4)--->selenium自动化测试
#可通过使用页面中的下一页功能进行多页面爬取from selenium import webdriverimport timefrom fake_useragent import UserAgentfrom lxml import etreechrome = webdriver.Chrome()chrome.maximize_window()chrome.get("https://www.huya.com/g/lol")chrome.implicitly_wait(10) #隐式等待
2022-01-06 21:07:13 491
原创 爬虫学习的第一天(requests简单的框架--中阶3)--->xpath 牙
#爬取某牙页面的主播房间名、热度与主播名import requestsimport timefrom lxml import etreefrom fake_useragent import UserAgentdef getHTML(url): try: # headers = {'UserAgent':UserAgent().chrome} r = requests.get(url) r.raise_for_status r
2022-01-06 20:25:23 456
原创 爬虫学习的第一天(requests简单的框架--中阶2)--->xpath 小说
#爬取起点小说网的例子,本文中采取了xpath提取信息的方法,之后还有别的方法。import requestsfrom fake_useragent import UserAgentimport timefrom bs4 import BeautifulSoup as bsfrom lxml import etree def get_html(url): #创建一个通用得网页的函数 try: headers = {'UserAgent':UserAgen
2022-01-03 22:09:34 335
原创 爬虫学习的第一天(requests简单的框架--中阶1)--->bs爬取
#熟悉BeautifulSoup库,进行简单的爬取内容import requestsfrom fake_useragent import UserAgentfrom bs4 import BeautifulSoup #调用新的库为BeautifulSoupdef getHTML(url): #定义一个获得爬取网页页面的函数 try: headers = {'UserAgent':UserAgent().chrome} r = reque
2021-12-30 22:46:07 322
原创 爬虫学习的第一天(requests简单的框架--初阶6)
#本内容对上一篇文章进行一些优化import requestsfrom fake_useragent import UserAgentimport retry: url = "https://sports.qq.com/nba/" headers = { 'User-Agent':UserAgent().chrome } r = requests.get(url,headers = headers) #r.encoding = r.appare
2021-12-28 21:35:57 330
原创 爬虫学习的第一天(requests简单的框架--初阶5)
#本章内容爬取腾讯体育网,将其中的新闻爬取显示出来。import requestsfrom fake_useragent import UserAgent #调用fake_useragent库中UserAgent模块import retry: url = "https://sports.qq.com/" #爬取的网站 headers = { 'User-Agent':UserAgent().chrome #可以生成一个chrome浏览器的一个代理。具体
2021-12-28 20:35:27 373
原创 爬虫学习的第一天(requests简单的框架--初阶4)
#本次爬取虎扑网(动态页面),当你用滚轮直接向下滑动就可以多看页面。从而进行多数据爬。import requestsimport timefrom random import choicetry: for i in range(3): headers = { 'User-Agent':'Mozilla/5.0' } url = "https://www.hupu.com/home/v1/news?pageNo={}&am
2021-12-27 19:58:43 146
原创 爬虫学习的第一天(requests简单的框架--初阶3)
#目前只掌握这些,如果有大神有更简单的操作可以进行点评,谢谢。import requestsfrom random import choicesimport time #导入时间模块def getHTML(): try: x = ['Mozilla/5.0','MQQBrowser/26 Mozilla/5.0','Opera/9.80'] headers = { 'User-Agent':choices(x) } a = input("请输入搜索内容:") for
2021-12-27 19:28:16 50
原创 爬虫学习的第一天(requests简单的框架--初阶2)
import requestsfrom random import choice #返回列表,元组或字符串中的随机项。def getHTML(): try: x = ['Mozilla/5.0','MQQBrowser/26 Mozilla/5.0','Opera/9.80'] #搜索来的几个用户代理 headers = { 'User-Agent':choice(x) #用户代理,使服务器能够识别浏览器,操作系统等。一般网站能可通过辨别是否通过浏览器访问网站而进行访问。
2021-12-26 15:03:59 244
原创 爬虫学习的第一天(requests简单的框架--初阶)
import requests #调用requests库def getHTML(url): try: #将爬取网页中出现的错误直接try,是爬取正常运行 r = requests.get(url) r.raise_for_status #判断是否能链接上 r.encoding = r.apparent_encoding #获取编码方式,网页页面内容可能与标题不一样 return r.text except: retur
2021-12-26 14:54:04 165
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人