python爬虫---某站排名100

northeast_king

已于 2022-04-14 15:29:12 修改

阅读量239

点赞数

文章标签： python 爬虫

于 2022-04-14 14:46:56 首次发布

本文链接：https://blog.csdn.net/northeast_king/article/details/124171334

版权

网络爬虫（又被称为网页蜘蛛，网络机器人）

准备工作：

Python：需要基本的python语法基础
requests：专业用于请求处理，requests库学习文档中文版

urllib库
lxml：其实可以用python自带的正则表达式库re，但是为了更加简单入门，用 lxml 中的 etree 进行网页数据定位爬取。
re：python正则表达式处理

代码：

def savedata(datalist,savepath):
    book = xlwt.Workbook(encoding="utf-8")  # 创建workbook
    sheet = book.add_sheet('排名')
    col=("排名","视频名字","UP主","播放量","弹幕数")
    for i in range(0,5):
        sheet.write(0,i,col[i])

baseurl="https://www.bilibili.com/v/popular/rank/all"
    datalist=getdata(baseurl)
    savepath="A和C中间那个站前100.xls"
    savedata(datalist,savepath)

效果：

（版权限制，无法展示）

see~~~

爬虫就像呼吸一样自由。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

northeast_king

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python爬虫-获取懂车帝“指定车型”的销量数据

Python进阶专栏《爬虫实战进阶》，《数据分析入门与实战》原创作者

07-09

528

本文是该专栏的第33篇，后面会持续分享python爬虫干货知识。在本专栏之前，笔者有详细介绍关于懂车平台的相关爬虫。对此，感兴趣的同学可以点击翻阅查看。而在本文中，笔者将要介绍的是懂车平台另外一种采集需求——获取“指定车型”的销量数据。具体实现思路和详细逻辑，笔者将在正文结合完整代码进行详细介绍。废话不多说，跟着笔者直接往下看正文详细内容。（附带完整代码）

Python爬虫-懂车帝城市销量榜单

Python进阶专栏《爬虫实战进阶》，《数据分析入门与实战》原创作者

03-31

686

本文是该专栏的第23篇，后面会持续分享python爬虫干货知识。最近粉丝留言咨询某汽车平台的汽车销量榜单数据，本文笔者以懂车帝平台为例，采集对应的城市汽车销量榜单数据。具体的详细思路以及代码实现逻辑，跟着笔者直接往下看正文详细内容。（附带完整代码）

参与评论您还未登录，请先登录后发表或查看评论

python——爬取网页排名定向爬虫（6）

luli_ya的博客

02-05

646

定向爬虫定义：定向爬虫可以精准的获取目标站点信息。【实例练习】【中国的大学排名爬取】 1 查看网页是否对爬虫有限制 1.查看 robots.txt 无robots.txt文件说明无爬虫限制 2.查看原网页要提取的信息被封装在html内 2.程序的结构设计步骤1：从网络上获取大学排名网页内容步骤2：提取网页内容中信息到合适的数据结构（二维数据）步骤3：利用数据结构展示并输出结果 ...

Python 爬虫-获得大学排名

aitie1479的博客

07-29

103

2017-07-29 23:20:24 主要技术路线：requests+bs4+格式化输出 import requests from bs4 import BeautifulSoup url = 'http://www.zuihaodaxue.com/zuihaodaxuepaiming2017.html' def gethtml(url): # 打开网页...

Python之爬虫-中国大学排名

weixin_30814319的博客

05-07

205

Python之爬虫-中国大学排名 #!/usr/bin/env python # coding: utf-8 import bs4 import requests from bs4 import BeautifulSoup # 通过传入网址信息创建一个获取网页文本的函数 def getHTMLText(url): # 判断获取网页文本过程中是否有错误 try: ...

《python网络爬虫——大学排名》

WUD的博客

05-26

1837

python网络爬虫——大学排名

慕课实例Python爬虫中国大学排名爬虫总结与思考

Trial & Error

01-15

1909

from bs4 import BeautifulSoup import bs4 import requests def get_html(url): '''获取网页的html源代码的文本字符串''' try: kv = {'user-agent': 'Mozzila/5.0'} # 设立头，提高爬取成功率 r = requests.get(ur...

Python爬虫-车主之家详情页汽车数据

最新发布

Python进阶专栏《爬虫实战进阶》，《数据分析入门与实战》原创作者

04-27

738

本文是该专栏的第26篇，后面会持续分享python爬虫干货知识。本文以车主之家的汽车详情页为例，获取对应车型的全部汽车相关数据（包含车型配置，车型销售数据，以及上牌数据等等）。具体实现思路和详细逻辑，笔者将在正文结合完整代码进行详细介绍。接下来，跟着笔者直接往下看正文详细内容。（附带完整代码）

Python爬虫-某懂车平台之汽车销量排行榜

Python进阶专栏《爬虫实战进阶》，《数据分析入门与实战》原创作者

02-02

2005

本文是该专栏的第33篇，后面会持续分享python爬虫干货知识。之前笔者在本专栏有详细介绍过该平台二手车数据，感兴趣的同学可以在本专栏往前翻阅查找。而本文要介绍的内容，是汽车销量排行数据，使用浏览器打开指定链接之后，直接打开开发者工具，笔者这里用的是google浏览器。当然了，如果你想统计全国，则可以考虑将全部城市获取下来，再进行汇总统计。而笔者这里，暂时只以city_name为北京做为参考案例，对其他城市数据感兴趣的朋友，则更改相应的city_name参数即可。获取第3页，offset为20，依次类推

Python原生爬虫 --- 50行代码爬取某直播网站主播名和人气值

狗哥的博客

12-03

6602

1. 爬虫前奏明确目的，例如，爬取直播网站“某猫”英雄联盟版块主播名字和人气。找到数据对应的网页，分析网页的结构找到数据所在标签位置。 2. 具体方法模拟HTTP请求，向服务器发送请求，获取到服务器返回给我们的HTML，用正则表达式提取需要的数据。 3. 代码示例完整代码如下，50行代码搞定python原生爬虫。 import re #正则表达式模块 from urllib import r...

中国大学排名爬虫

06-26

通过访问网页，对中国2017年大学排名的爬虫。468468453443

Python应用系列（1），抓取aso100网站的app排名

瞎掰大数据-- 世界的本质是数据，胡侃瞎掰，专注微软大数据解决方案

01-04

1513

Python应用系列（1），抓取aso100网站的app排名。背景：要过年了，要做2016一年的判断，需要和同行业对比，判断趋势。用途：根据aso100.com网站，抓取新分类下的app应用排名列表，导出到Excel文件。说明：此段代码仅供学习交流，欢迎评论。知识点： 1. BeautifulSoup，真心说好用。文档地址 https://www.crummy.com

爬虫基本介绍 && python3 爬虫爬取网易新闻排行榜

weixin_30696427的博客

04-16

379

爬虫基本介绍 1. 什么是爬虫？爬虫是请求⽹网站并提取数据的⾃自动化程序 2. 爬虫的基本流程发起请求通过HTTP库向目标站点发起请求，即发送一个Request，请求可以包含额外的headers等信息，等待服务器器响应。解析内容如果服务器能正常响应，会得到一个Response，Response的内容便是所要获取的页...

Python爬虫爬取某网页电影排行实例

永远是少年

12-25

1429

今天继续给大家介绍Python 爬虫相关知识，本文主要内容是Python爬虫爬取电影排行实例。一、目标站点分析二、实例代码编写

python seo 外链_Python批量获取爱站外链数据

weixin_39915694的博客

12-07

232

基于python强大简洁的语法结构，python在seoer中应该是最多的脚本语言了，做seo的来写程序不是必要的话，我觉得将来应该变成必要了，起码我们seoer能写一些脚本来处理seo上的需求，尤其当数据量有一定量的时候，而且seo应该也需要以强大科学的数据作为指导，那么首先就是要数据采集、挖掘，其次数据分析，并且最好可以做到数据可视化。python就是首选语言！作为草根屌丝站长，能用pytho...

用爬虫爬出知乎十大排行榜，所有数据一网打尽。

m0_48891301的博客

10-30

307

最近写了个爬虫，将知乎3W核心用户的公开资料爬了下来。虽然知乎声称注册用户有6500万，日活跃用户有1850万，但其中很大一部分用户是三无用户。由于该部分用户公开的数据并不多，再且新版知乎服务器对于单IP最大请求量有限制（大概每秒一次左右），所以我只爬了最核心的3W用户。我的爬虫规则是这样的：从关注量上万的知乎大V中随机抽取10个作为种子，依次爬取其关注的人，再从其关注的人爬取关注的人的关注的人，如此递归。也就是说爬虫的规则保证了进入数据库的每一个人至少有一个关注者。

【浅谈python爬虫1】基于正则表达式的基础爬虫——爬取排行榜榜单内容

好学的小师弟的博客；华为云社区月度积极博主

11-15

1491

大家好，我是好学的小师弟。今天来和大家分享下，我近期工作的一个学习心得——爬虫。虽然之前也有过爬虫的学习，但是那基本上都是基于图片的爬取。这次学习心得，算是一个小小的提升吧。主要分3讲：1.基于正则表达式的爬虫——爬取排行榜榜单内容 2.基于lxml库的etree方法结合xpath方法——爬取排行榜榜单内容并生成榜单词云图 3.基于调用接口爬取排行榜单的爬虫方法并将爬取内容保存至csv文件基于正则表达式的爬虫——爬取...

Python爬取Alexa.cn上Top500的网址

_ToDream

11-07

1798

在原来只能一次获取20条数据的基础上，和@阿尔法猫一起进行了修改。# encoding:utf-8import requests from bs4 import BeautifulSoup def excuteSpider(url,headers,session,): req = session.get(url, headers=headers) bsObj = BeautifulS

豆瓣排行榜小爬虫

jungle8884的博客

12-03

525

import requests from lxml import etree # 1. 将目标网站的信息抓取下来 headers = { 'User-Agent': "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 " ...

Python-100例：小例子帮你学习Python！

Python-100例是一个包含100个Python编程小例子的教学资源，旨在帮助初学者更好地理解和学习Python编程语言。其中的一道练习实例是关于如何由数字1、2、3、4组成互不相同且无重复数字的三位数的问题。通过这个例子，...