Python
焰与光
有问题请加企鹅630853319
个人博客正在建设中:leenzw.cn
展开
-
中国高校排名爬虫(2021年版)
from bs4 import BeautifulSoup import requests import bs4 import re def getHTMLText(url):#获取网页具体内容 try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text except:原创 2021-10-27 21:11:02 · 860 阅读 · 1 评论 -
Python爬虫MOOC入门笔记(1)
爬文本: 1)先r.encoding,观察是不是‘gbk’形式,如果不是,需要替换(中文) r.encoding = r.apparent_encoding 或者 r.encoding = ‘gbk’ 2)记住常用的’utf-8’编码 3)一些反爬网站需要更换身份,才能进行相关操作 爬图片 1)利用文件f操作时需要缩进,否则报错 2)利用r.status_code,如果返回不是200说明访问错误 以下为具体事例,大部分代码来源于MOOC 一、JD某3080显卡文本爬取 >>> import原创 2020-09-23 22:06:00 · 315 阅读 · 0 评论