爬虫
xiao阿文
热爱互联网,希望在这里能够与大家一同进步!!!
展开
-
用python分分钟爬取B站视频
# 导入requests模块,模拟发送请求import requests# 导入jsonimport json# 导入reimport re# 定义请求头headers = { 'Accept': '*/*', 'Accept-Language': 'en-US,en;q=0.5', 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, lik原创 2021-01-07 19:21:19 · 1844 阅读 · 2 评论 -
爬取汽车之家新闻
import requests# pip3 install beautifulsoup4 解析html和xml,修改html和xmlfrom bs4 import BeautifulSoupres=requests.get('https://www.autohome.com.cn/news/1/#liststart')# print(res.text)# 第二个参数,使用什么解析器#html.parser内置,不需要安装第三方模块# soup=BeautifulSoup(res.text,原创 2020-12-25 09:27:58 · 215 阅读 · 1 评论 -
红牛分公司数据part02
简单爬取红牛分公司基本数据part02此教材利用requests、pandas、bs4三个模块。代码实现如下:方式一:直接在终端打印import requestsimport pandasfrom bs4 import BeautifulSoupurl=requests.get('http://www.redbull.com.cn/about/branch')soup = BeautifulSoup(url.text,'lxml')# title_list = soup.find_a原创 2020-12-21 12:48:38 · 442 阅读 · 0 评论 -
简单爬取红牛分公司基本数据part01
简单爬取红牛分公司基本数据part01此教程利用requests、re、pandas三个模块完成爬取。导入模块:import requestsimport reimport pandas获取URL:url = requests.get('http://www.redbull.com.cn/about/branch')代码实现:import requestsimport reimport pandasurl = requests.get('http://www.redbull原创 2020-12-21 12:40:11 · 456 阅读 · 0 评论 -
python爬取豆瓣Top250
python爬取豆瓣Top250一、基本流程一、准备工作通过浏览器查看分析目标网页,学习编程基础规范。二、获取数据通过HTTP库向目标站点发起请求,请求可以包含额外的header等信息,如果服务器能正常响应,会得到一个Response ,便是所要获取的页面内容。.三、解析内容得到的内容可能是HTML, json等格式,可以用页面解析库、正则表达式等进行解析。四、保存数据保存形式多样,可以存为文本,也可以保存到数据库,或者保存特定格式的文件,这里我用Excel和数据库两种展示。二、原创 2020-12-11 20:17:48 · 314 阅读 · 0 评论